Duplicated Content mit WordPress vermeiden

Als ich kurz gecheckt habe wieviele Seiten diese Domain im Google Index hat (nämlich 151), habe ich festgestellt, dass Google viele Seiten im Stile von www.marchionni.ch/tag/irgendeintag indexiert hat. Um zu sehen, welche Seiten vom Big G indexiert wurden, benutzt man folgende Suchabfrage in Google:

site:marchionni.ch

Da jede dieser tag-Seiten die bestehenden Beiträge auflistet, erkennt Google dies als sogenannten Duplicated Content und straft die Seite ab. Diese wird in den sogenannten Supplemental Index gekippt (Information zum Supplemental Index gibts am Ende dieses Blog Beitrages oder bei Google selbst). Um zu sehen, welche Seiten der Domain im richtigen Index (Main Index) sind, kann man diese Suchabfrage in Google tätigen:

site:marchionni.ch/*

So ist zu erkennen, dass von den (zum Zeitpunkt des Schreibens) 151 mit der ersten Suchabfrage gefundenen Seiten nur deren 13 im richtigen Index sind. Somit befindet sich der Grossteil der Seiten, nämlich 138, im Supplemental Index. Im Main Index befinden sich nur die neueren Tags und einige Blog-Beiträge, alles andere wurde quasi abgestraft.
Damit nun in Zukunft mit WordPress nur noch die Blog-Beiträge von Google in den Index aufgenommen werden, könnte man z.b. ein Plugin wie dieses hier benutzen oder aber eine Robots-Datei mit folgendem Inhalt anlegen:

User-agent: *
Disallow: /archives/
Disallow: /author/
Disallow: /category/
Disallow: /page/
Disallow: /tag/
Disallow: /wp-includes/
Disallow: /search/
Disallow: */feed/

Die Suchmaschinen-Spiders lesen diese Datei als erste und entnehmen ihr, welche Verzeichnisse und Dateien überhaupt ge-crawled werden dürfen. Die datei muss als robots.txt gespeichert und ins Root-Verzeichnis des Webverzeichnises gelegt werden. Im vorliegenden Fall ist die Datei nun hier zu finden: https://www.marchionni.ch/robots.txt

Bin gespannt, wie schnell das Auswirkungen haben wird.

9 Kommentare zu „Duplicated Content mit WordPress vermeiden“

  1. Payment Blogger

    Im übrigen kann man das Problem mittlerweile recht gut mit dem Canonical Tag beheben. Das kann man bei Google nachlesen.

  2. Danke für den Beitrag, das Thema ist ja generell für die Entwicklung von CMS oder Onlineshop-Software interessant. Es legt ja eigentlich die Forderung an die Entwicker nahe, solche Mechanismen in die Systeme zu integrieren.

  3. Suchmaschinenoptimierung

    Zitat:

    „Ich erhalte unterschiedliche Ergebnisse:“

    Das kommt daher, das du in der Regel bei jeder Abfrage ein anderes Datencenter von Google abfragst und die Daten nicht immer identisch sind…

    Viele Grüße

  4. ich nutze das Plugin wpseo. Damit werden Seiten die nicht identiziert werden sollen mit „noindex“ belegt. Weiterhin vergebe ich nofollow für alle Links, außer auf den Beitragslinks natürlich. Sorgt für mehr Linkjuice

  5. epayment blogger

    Hi,
    ja, ich kenne Imwalking. Das läuft auf Intershop, sieht man ja auch sehr deutlich im Quelltext. Ich finde imwalking.de ist einer der grafisch besser umgesetzen Schuhe Shops.

  6. Ich erhalte unterschiedliche Ergebnisse:

    site:imwalking.de/* –> 2240 results
    site:imwalking.de –> 7090 results

    Gruss

    PS: Ist die eingesetzte Shopsoftware Intershop?

  7. In meinem Fall habe ich /category/ disallowed, weil mein Blog die gesammten Beiträge in der Kategorie auflistet und das Google als Duplicated Content erkennt, weshalb dann auch viele Beiträge im Supplemental Index gelandet sind.
    Eine Lösung die mir einfällt ist, die Beiträge konsequent mit dem -more- Tag abzukürzen, so dass in der Kategorienauflistung nur die ersten paar Sätze jedes Beitrages angezeigt werden und Google die Summe aller dieser ersten paar Sätze (hoffentlich) nicht als Duplicated Content interpretiert.
    Evtl. gibts auch ein Plugin welches das übernimmt, damit man das -more- Tag nicht in jedem Beitrag setzen muss. Mir fällt da gerade „limit-post“ ein, aber es gibt wohl besseres.

  8. Ich frage mich aber was man machen soll wenn man WordPress als CMS benutzt? Ich habe zB. als Navigation ganz einfach den Category Widget „missbraucht“ und kann deswegen auch „Category“ nicht disallowen. Was wird da empfohlen?

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht.