Magento Duplicate Content: Probleme mit doppeltem Inhalt in Kategorien

Inhaltsverzeichnis

Lesezeit: 7 Minuten

Artikel teilen!

Janina
19. Jun 2023

Das Magento Shop System erfreut sich großer Beliebtheit, da es in jeder Hinsicht ein äußerst leistungsstarkes E-Commerce-System ist. Für Online-Shop-Betreiber, die eine hohe Anzahl an Produkten verwalten und mit vielen Besuchern umgehen müssen, ist der Magento Onlineshop die ideale Lösung. Er ist belastbar, bleibt auch bei hohem Traffic stabil und kann problemlos mehrere tausend Produkte führen.

Eine der herausragenden Funktionen von Magento ist die Möglichkeit, Produkte effektiv zu kategorisieren und mittels Magento-Attribute in den jeweiligen Kategorien filterbar zu machen. Dies macht das Einkaufserlebnis für potenzielle Kunden besonders attraktiv. Nutzer können Produkte nach Ausstattung, Farbe, Material und weiteren Kriterien filtern und so genau das finden, was sie suchen. Diese Attribute können einfach im Magento-Backend hinterlegt werden, wodurch die Filterung spielend leicht möglich ist.

Doch wie sieht es mit der Indexierung durch Google aus? Ist das ohne Bedenken und ohne zusätzliche Nacharbeiten möglich? Im Bereich E-Commerce ist eine gute Sichtbarkeit in Suchmaschinen wie Google entscheidend, damit potenzielle Kunden die Produkte finden können. Hier kommt das Problem des Duplicate Content ins Spiel. Wenn derselbe Inhalt unter verschiedenen URLs verfügbar ist, kann dies zu Schwierigkeiten in den Suchergebnissen führen. Google kann möglicherweise nicht eindeutig erkennen, welche Version der Seite relevant ist, was zu einer Abwertung im Ranking führen kann.

Filterung und Paginierung – das muss geplant sein

Was für den User unauffällig ist, wird für die SEO-Optimierung oft zum Alptraum. Aus einer ursprünglich schönen, nutzerfreundlichen URL kann plötzlich eine extrem lange URL werden. Ist das gut für Google?

Beispiel: Sie besitzen einen Onlineshop für Mode und befinden sich in der Kategorie „Damenbekleidung“. Unsere nutzerfreundliche URL lautet: www.meinmodeshop.de/damenbekleidung.

Der User möchte nun gezielt nach einem Produkt suchen und nutzt die meist seitliche Filterfunktion. Durch Auswahl verschiedener Kriterien verringert sich für den User zwar die Trefferliste mit den angezeigten Produkten, jedoch verlängert sich die URL ins Unendliche, da alle Parameter und Filter hinten angehängt werden. Aus der kurzen, schönen Kategorie-URL wird dann plötzlich:

www.meinmodeshop.de/damenbekleidung?kleidungsstueck=t-shirt&groesse=38&farbe=rot&form=aermellos&aufmachung=knopfleiste&stil=casual

Wenn man bedenkt, dass man mehrere Filter hat und diese in jeder erdenklichen Kombination anwenden kann, sieht man erst, was für eine Vielzahl an neuen URLs entsteht. Google folgt jedem dieser Links, wenn man nichts dagegen unternimmt – somit entsteht aus der Kategorie „damenbekleidung“ eine Vielzahl an URLs, die im Grunde keinen zusätzlichen Mehrwert bieten. Da stets die Haupt-URL /damenbekleidung/ bleibt und durch die Filterung immer nur Artikel hinzugefügt oder entfernt werden, entstehen hunderte URLs, die alle die gleiche Kategorie-Beschreibung beinhalten.

Im Bereich Magento SEO ist die Vermeidung von Duplicate Content von entscheidender Bedeutung. Wenn derselbe Inhalt unter verschiedenen URLs verfügbar ist, führt das zu Problemen in den Suchergebnissen. Google kann nicht klar unterscheiden, welche Version der Seite relevant ist, was zu einer Abwertung im Ranking führen kann.

Magento-Shops, die umfangreiche Filtermöglichkeiten anbieten, müssen besonders auf die Vermeidung von Duplicate Content achten. Die vielen unterschiedlichen URL-Variationen durch Filter können Duplicate Content erzeugen und die Sichtbarkeit in Suchmaschinen erheblich beeinträchtigen. Bei Magnific sind wir eine erfahrene Magento-Agentur für Ihre Shop-Erstellung, die Ihnen dabei hilft, diese Herausforderungen erfolgreich zu meistern.

Paginierung

Bei großen Online Shops gibt es oft Hunderte von Produkten in einer Kategorie. Aus Sicht der Nutzerfreundlichkeit passen diese natürlich nicht alle auf eine einzige Seite. Daher gibt es die sogenannte Paginierung, die es ermöglicht, viele Artikel über mehrere „Seiten“ zu verteilen. So kann der Kunde eine bestimmte Anzahl von Produkten pro Seite angezeigt bekommen.

Alle Produkte werden somit in Seiten mit einer Maximalzahl an Produkten sortiert. Dies ist zwar benutzerfreundlich, kann aber für die SEO-Optimierung zu einem Problem werden, wenn keine geeignete Lösung vorhanden ist.

Wenn der User auf die zweite Seite klickt, verlängert sich die URL in den meisten Fällen mit einem Parameter, der etwa so aussehen könnte:

?Page=P2

Wenn in unserem Beispiel 609 Seiten vorhanden sind und dieser Parameter nicht von der Indexierung ausgeschlossen wird, wird der Google Crawler 609 URLs in dieser Kategorie durchsuchen und in den Google-Index aufnehmen. Dies wäre katastrophal, denn der Inhalt auf diesen Seiten ist im Wesentlichen identisch.

Doppelte Inhalte sind für SEO schädlich – Filter im Magento Shop

Ein häufiges Problem bei vielen Online Shops, einschließlich Magento, ist das Duplizieren von parameterbasierten Seiten. In Magento tritt dies sehr häufig bei mehrschichtigen Kategorieseiten auf. Diese Seiten werden durch aktive Attributfilter generiert, die dem Nutzer ermöglichen, individuell exakt das Produkt mit den gewünschten Eigenschaften herauszufiltern.

Google (und Bing) neigen dazu, URLs mit Parametern und Filterattributen als separate und eigenständige Seiten in den Suchergebnisseiten (SERPs) anzuzeigen. Dies liegt daran, dass viele Online Shops immer noch Parameter in ihren URLs verwenden (z.B. onlineshop.com/?pageid=753). Ähnlich verhält es sich mit Filterattributen (z.B. onlineshop.com/damenbekleidung/?kategorie=t-shirts&farbe=blau&marke=diesel&groesse=m oder /filter/bulls/schwarz_/29_zoll_/herren/mtb_.html). Wenn hier nicht die richtige Lösung gefunden wird, entstehen schnell tausende von URLs, die im Grunde inhaltliche Kopien voneinander sind, was zu Duplicate Content führt.

Zur Vermeidung von Duplicate Content und zur Optimierung für Magento SEO ist es wichtig, URL-Schlüssel korrekt zu setzen und die Nutzung von Parametern zu kontrollieren. Eine geeignete Methode ist die Verwendung von kanonischen URLs, um sicherzustellen, dass Google die Hauptversion der Seite erkennt. Zudem sollten Parameter in der robots.txt-Datei blockiert oder in der Google Search Console entsprechend konfiguriert werden.

Weiterhin ist es ratsam, eine XML Sitemap zu erstellen und zu pflegen, die nur die wichtigsten Seiten des Shops umfasst. Dies hilft Suchmaschinen dabei, die relevanten Seiten effizient zu indexieren und Duplicate Content zu vermeiden.

Zusammenfassung wichtiger Punkte, die schädlich sein können:

Jeder Filter, der in der URL genannt wird, ist für Google eine zusätzliche URL
Mehrere Filter hintereinander ergeben kombiniert eine hohe Menge an URLs, die jeweils die gleichen Inhalte beinhalten
Denken Sie an alle Filter-Kombinationen, die entstehen können – bei 10 Filter mit über 5 hat man für eine einzige URL über 500 indexierte URLs

Da sich der Inhalt unserer Kategorieseiten nur geringfügig unterscheidet bei aktiven Filtern, möchte Google nicht, dass sie als separate Seiten zwischengespeichert werden. Dies gilt insbesondere dann, wenn die Kategoriebeschreibung viel Text enthält. Die Vervielfältigung der Kategoriebeschreibung kann zu Problemen mit doppelten Inhalten führen und gleichzeitig zu Ranking-Verlusten.

Es gibt einige Möglichkeiten, um dieses Problem zu beheben. Grundsätzlich gilt: Parameter und Filter gehören nicht in den Google Index! Es gibt Tricks, die einen ganz einfachen Ausschluss dieser Parameter ermöglichen. In diesem Beitrag gehen wir gezielt auf die Vermeidung dieser Indexierung ein.

Bei Magnific, unserer Magento SEO Agentur, sind wir spezialisiert darauf, solche SEO-Herausforderungen effektiv anzugehen und Ihnen zu helfen, Ihre Magento-Shop-Performance zu optimieren.

Wie schließt man Parameter und Filter aus?

Es gibt 4 Möglichkeiten dies auszuschließen:

Über die Robots.txt Datei
Verwendung von URL-Parameter Tool in der Google Search Console
Meta-Robots der einzelnen URLs NOINDEX

Die Robots.txt Datei

Die robots.txt-Datei ist eine hervorragende Möglichkeit schnell und effizient Parameter und Filter auszuschließen. Google liest nach wie vor die robots.txt Datei, obwohl es teilweise Webseiten oder Online Shops gibt, die keine robots.txt Datei führen und alles über den Meta-Tag Robots in der jeweiligen URL regeln. Die einfache Text-Datei bietet viele Möglichkeiten und Google hält sich nach wie vor ganz klar an den Vorgaben, die hier hinterlegt sind.

Der Hauptzweck der robots.txt-Datei besteht darin Suchmaschinen mitzuteilen auf welche Seiten zugegriffen werden darf und auf welche Bereiche nicht zugegriffen werden darf.

Mit dem Befehl Disallow kann somit jeder Ordner, jeder Parameter und jeder Filter ausgeschlossen werden. Wenn man nun Folder (Unterordner), Parameter oder einfache URLs ausschließen möchten, die nach der TLD folgen (TLD= Top Level Domain – damit wird die Endung einer Domain gemeint, Beispiel „.de“ oder „.com“), schaut hier ein Disallow Befehl wie folgt aus:

Disallow: /filter/ (Verzeichnis sperren)
Disallow: /*?parameter (Das Wort „parameter“ mit dem entsprechenden Parameter versehen)
Disallow: /*?Page (Ausschluss des Parameters der Paginierung

Dadurch wird der Suchmaschine mitgeteilt, dass URLs mit einem Fragezeichen (der als Parameter gilt) oder URLs mit bestimmten Verzeichnissen (Vorsicht: mit finalem „/“ bedeutet alle URLs nach dem ausgeschlossenen Ordner) nicht indexiert werden sollen. Zusätzlich kann man auch ganze URLs ausschließen, die man auch nicht im Index sehen möchte:

Disallow: /seite.html (hier wird die entsprechende URL aus dem Index ausgeschlossen)

Dies ist eine äußerst nützliche Methode, um das Problem mit Kategoriefiltern und Parametern zu lösen. Es macht nur dann Sinn, Filter als indexierbare URLs zu verwenden, wenn spezifischer Content darauf vorhanden ist und es als Kategorie dient. Parameter sollten grundsätzlich immer aus dem Index ausgeschlossen werden, um Probleme mit Duplicate Content zu vermeiden.

Es ist wichtig zu beachten, dass Anweisungen in der robots.txt-Datei Suchmaschinen zwar daran hindern können, Seiten erneut aufzurufen, aber bereits zwischengespeicherte URLs könnten indexiert worden sein und so zu doppelten Seiten führen. Daher sollten Ausschlüsse in der robots.txt-Datei unmittelbar bei der Live-Schaltung des Online-Shops integriert werden. Wenn diese Anpassungen erst nach der Veröffentlichung vorgenommen werden, können indexierte URLs nicht sofort entfernt werden, was zu einer längeren Zeit mit doppelten Seiten in den Suchergebnissen führen könnte.

Lösung: Ausschluss der URL in der Google Search Console

Vorherige Tools und Berichte > Entfernen (alte Oberfläche) > Vorübergehend ausblenden > URL eingeben > Antrag übermitteln

Kleiner Tipp: In der robots.txt Datei können Sie bestimmte User-Agents, wie zum Beispiel den Crawler von Yandex, ausschließen. Um Yandex vollständig von Ihrer Website auszuschließen, könnten Sie folgende Zeilen in Ihre robots.txt Datei einfügen:

User-agent: Yandex
Disallow: /

Diese Anweisungen bedeuten:

User-agent: Yandex weist darauf hin, dass die folgenden Regeln für den Yandex-Crawler gelten.
Disallow: / bedeutet, dass der Crawler keinen Zugriff auf irgendeinen Teil Ihrer Website hat.
Wenn Sie noch andere Crawler oder Suchmaschinen ausschließen möchten, können Sie ähnliche Einträge für deren User-Agents hinzufügen. Hier ist ein weiteres Beispiel, das mehrere User-Agents ausschließt:

User-agent: Yandex
Disallow: /

User-agent: Googlebot
Disallow: /

User-agent: Bingbot
Disallow: /

Damit werden Yandex, Google und Bing vollständig von Ihrer Website ausgeschlossen. Achten Sie darauf, die Datei im Stammverzeichnis Ihrer Website zu speichern, damit sie von den Crawlern gefunden wird (zum Beispiel http://www.ihrewebsite.de/robots.txt).

URL Parameter Tool in der Google Search Console

In der Google Search Console (abgekürzt GSC) ist eine Funktion namens URL-Parameter integriert. Durch Klick (in der neuen Search Console) auf:

Linke Sidebar > Vorherige Tools und Berichte > URL-Parameter

gelangt man in diesen Bereich. Hier können Parameter nach belieben hinzugefügt werden. Parameter dienen hauptsächlich dazu die Benutzerfreundlichkeit auf der Webseite zu verbessern. Um den negativen Nebeneffekt zu vermeiden, ist es wichtig dies der Suchmaschine auch so mitzuteilen. Offiziell heißt es laut Google, dass dies Google hilft die Webseite effizienter zu crawlen. Ziel ist es Online Shops und Webseiten-Besitzern dabei zu helfen, Probleme mit Parametern zu lösen, die durch Parameter verursacht werden.

Wichtig: Durch Eingabe falscher Parameter kann es möglicherweise dazu führen, dass Seiten aus den Suchergebnissen entfernt werden. Dies bedeutet, dass diese Technik im Gegensatz zur Datei robots.txt möglicherweise dazu beiträgt, diese doppelten Seiten zu entfernen.

Wenn dies die von Ihnen gewünschte Lösung ist, würden wir empfehlen, Ihre primären Attributcodes hinzuzufügen, die in Ihren URLs vorkommen, aber nicht indexiert werden sollten. Diese haben Sie in Ihrer geschichteten Navigation eingerichtet.

Ausschluss durch Meta Robots Tag NOINDEX

Magento verfügt über einen eigenen Meta-Robots Tag. Der Standard Meta-Robots Tag schaut wie folgt aus:

„robots“ content=“INDEX,FOLLOW“ />

Vor Liveschaltung steht hier meist der Befehl NOINDEX, NOFOLLOW. Dies blockiert jeglichen Crawling-Versuch von Suchmaschinen.

Ein Meta-Robots-Tag ist zwar ein interessantes Tool, um Ausschlüsse zu planen, allerdings ist es nicht 100% so sicher wie die robots.txt-Datei. Leider passiert es ab und an, dass nicht freigegebene Domains und URLs dennoch im Zwischenspeicher von Suchmaschinen landen, weil die robots.txt Datei fehlt.

Der Meta-Tag Robots ist allerdings mittlerweile der gängigste Weg, um Google Anweisungen zu geben. Wie bereits oben erwähnt gibt es mittlerweile immer mehr Webseiten, die von einer robots.txt-Datei nicht mehr Gebrauch machen und sich vollkommen auf den Meta Tag Robots verlassen.

Für das Ausschließen ist diese Möglichkeit bei weitem die Aufwendigste, da ein Eingriff in XML-Files (Config.xml und observer.php) notwendig ist. Das Setzen von Noindex-Befehlen über den Meta Tag Robots ist nur für vorhandene Kategorien, Produkte und aus dem Backend sichtbare URLs möglich. Für „künstliche URLs, die durch die Shop-Funktionalitäten (in diesem Fall meine ich Aneinanderreihungen von Parametern oder Filtern), ist dies leider nicht ohne einen Eingriff durch einen Programmierer möglich.

Fazit zum Meta Robots Tag: Für diese Art von Ausschluss gibt es weniger komplizierte Lösungen. Deshalb raten wir von dieser Möglichkeit ab.

Zusätzlich interessant: Der Canonical Tag

Der Canonical Tag ist seit jeher im Magento-System vorhanden. Mit SEO Tools wie die SEO Suite Ultimate Extension wird die Bedienung von Canonical Tags um einiges vereinfacht. Aktivieren kann man das Ganze ohne SEO Extensions unter System> Konfiguration> Katalog> Suchmaschinenoptimierung.

Diese Funktion ermöglicht das Einfügen eines kanonischen Tags in die gewünschte URL. Kanonische Tags informieren Google im Grunde darüber, wo sich die Hauptversion der Seite befindet. Es handelt sich um eine Art Spiegelung des Inhalts. Wenn die aktuelle Seite von der kanonischen URL abweicht, kann sie von Google ignoriert werden.

Wichtig ist zu betonen, dass ein Canonical Tag Google lediglich darauf hinweist, dass eine andere URL mit ähnlichem bis gleichem Inhalt existiert. In der Regel berücksichtigt Google den Canonical Tag, jedoch gibt es keine Garantie dafür, dass dies immer der Fall ist. Dies ist eine nützliche Methode, um die SEO-Optimierung in Magento zu unterstützen, insbesondere in Bezug auf URL-Schlüssel und Seitentitel.

Wie wirkt sich das auf Ihre Kategoriefilterseiten aus?

Nun, auf all Ihre Kategoriefilterseiten (z.B. bei Kategorie-URLs mit? Cat = xx) sollte dieses kanonische Tag aktiviert sein. Dies weist Google darauf hin, dass diese Filterseite in Wirklichkeit nur eine Kopie der Hauptkategorie ist und nicht dazu dient einen neuen Inhalt zu bieten. Das Hauptproblem beim Canonical-Tag ist, dass es nicht konsistent funktioniert – insbesondere bei Kategorien. Produktseiten arbeiten sehr gut mit dem Canonical-Tag zusammen (in der Regel wird Google angewiesen, die Produkt-URL als onlineshop.com/produkt-url.html und nicht mit Kategorien zwischenzuspeichern), obwohl auf Kategorieseiten die gleiche Funktionalität aktiviert ist. Hier kann es allerdings zu Duplikaten in den SERPs kommen. Falls dies der Fall ist, sollte über Parameter oder über die robots.txt Datei ein Ausschluss angestoßen werden.

Benötigen Sie Unterstützung bei Ihren Online Marketing Aktivitäten?

Magento Duplicate Content: Probleme mit doppeltem Inhalt in Kategorien

Filterung und Paginierung – das muss geplant sein

Paginierung

Doppelte Inhalte sind für SEO schädlich – Filter im Magento Shop

Zusammenfassung wichtiger Punkte, die schädlich sein können:

Wie schließt man Parameter und Filter aus?

Die Robots.txt Datei

URL Parameter Tool in der Google Search Console

Ausschluss durch Meta Robots Tag NOINDEX

Zusätzlich interessant: Der Canonical Tag

Wie wirkt sich das auf Ihre Kategoriefilterseiten aus?

SEO-Dienstleistungen in Ihrer Umgebung

Lokale SEO-Dienstleistungen

Magento-Agentur in Ihrer Nähe

Digitalagentur in Ihrer Nähe