Wie wir die perfekte robots.txt für das SEO unserer Joomla!3 Webseite erstellen

Warum ist die robots.txt Datei für usere Webseite so wichtig?

Gute Suchmaschinen Rankings sind ausschlaggebend für den Erfolg von unserer Webseite. Nicht selten wird technisches SEO vernachlässigt. Eine kolossale SEO Maßnahme ist die crawlability mithilfe der robots.txt Anweisungen zu verbessern. Beachte jedoch, daß es mit der robots.txt nicht möglich ist, unsere Webseite vor dem Zugriff von Webcrawlern oder Personen zu schützen. Die robots.txt kann nur das erscheinen in den Suchergebnissen einer Suchmaschine steuern.

Was ist die robots.txt Datei?

Die robots.txt Datei ist ein Textdokument, welche Befehle für Webcrawler bereitstellt, um den totalen oder teilweisen Zugriff auf unsere Webseite zu beschränken. Die robots.txt befindet sich im Root-Verzeichnis unserer Webseite, also im obersten Verzeichnis eines Hosts, auch Stammverzeichnis genannt.

Sind die Anweisungen der robots.txt für Suchmaschinen-Crawler bindend?

Das Robots-Exclusion-Standard-Protokoll ist kein offizieller Standard, daher sind Suchmaschinen-Crawler nicht gezwungen sich an die Regeln in der robots.txt zu halten. Die meisten Suchmaschinen-Crawler halten sich jedoch an das Robots-Exclusion-Standard-Protokoll, da Suchmaschinen in der Regel kein Interesse am Inhalt von Verzeichnissen und Dateien haben, die keinen Mehrwert für Ihre User haben. (Beispiel: private Urlaubsphotos, Inhalt von Log-Dateien, usw.)

Wozu dient die robots.txt?

Mit den Regeln und Anweisungen in der robots.txt legen wir fest, welche Inhalte sich für Suchmaschinen nicht lohnen zu indexieren. Dadurch wird das Crawl-Budget sinnvoller eingesetzt. Das Crawl-Budget ist die Zeit die der Webcrawler hat um unsere Joomla Webseite zu durchsuchen und diese im Index abzuspeichern. Je höher unser Webseiten-Ranking ist, desto mehr Crawl-Budget steht für die Indexierung unserer Webseite zur Verfügung.

Wo befindet sich die robots.txt?

Die robots.txt muß immer im Root-Verzeichnis der Webseite liegen. Die robots.txt darf nur einmal auf der Domain bzw. Sub-Domain vorkommen und muß exakt so benannt werden: robots.txt

Wie wird die robots.txt bearbeitet?

Wir können die robots.txt Datei mit fast jedem Texteditor erstellen, vorausgesetzt dieser kann Dateien im Standard- ASCII und UTF-8 Format erstellen. Von der Verwendung von Textverarbeitungsprogrammen wie zum Beispiel Word, Open Office, usw. soll Abstand genommen werden, da diese meist Dateien in einem eigenen Format speichern und unerwartete Zeichen hinzufügen. Dies kann zu Fehlern beim Crawling führen.

Wie ist der Aufbau einer robots.txt?

Die robots.txt wir vom Webcrawler Zeile für Zeile verarbeitet. Daher kann es sein, daß eine Anweisung eine der voran gegangenen Anweisungen überschreibt, falls diese der vorangegangenen Anweisung wiederspricht.

Hier wird dem Webcrawler in der zweiten Zeile mitgeteilt, daß alles zum indexieren erlaubt ist, jedoch in der dritten Zeile wird das indexieren für die gesamte Webseite verboten. Die letzte Anweisung behält Gültigkeit und überschreibt somit die Anweisung „Allow: /“ aus der zweiten Zeile.

Jede robots.txt besteht aus einer oder mehrerer Regeln, diese beinhallten wiederum eine oder mehrere Anweisungen. Im vorangegangenen Beispiel sehen wir eine Regel die Informationen zu

  • Für wen gilt die Regel (User-agent)
  • Auf welche Verzeichnisse oder Dateien der User-agent zugreifen darf
  • Auf welche Verzeichnisse oder Dateien der User-agent nicht indexieren darf

beinhaltet.

Generell wird davon ausgegangen, daß ein Webcrawler sämtliche Seiten und Verzeichnisse crawlen darf, die nicht durch eine Disallow: Anweisung, in der robots.txt, blockiert sind.
Bei der Erstellung von Regeln mit den darin enthaltenen Anweisungen ist besonders auf die Groß- und Kleinschreibung zu achten! Jede Anweisung hat in einer neuen Zeile hinterlegt zu werden, da sonst die robots.txt nicht funktioniert.

Welche Befehle stehen uns für die Erstellung der robots.txt zur Verfügung?

# - Die Raute am Zeilenbeginn zeichnet einen Kommentar in der robots.txt aus, Kommentare werden von Webcrawlern ignoriert. Sollte ein Kommentar mehrere Zeilen in Anspruch nehmen, muß am Beginn jeder neuen Zeile eine Raute „#“ stehen.

User-agent: - mit diesem Befehl legen wir fest für welchen Webcrawler die folgenden Anweisungen bestimmt sind. Ein Stern „*“ würde so wie im oberen Beispiel zu sehen, sämtliche Webcrawler ansprechen. Wobei der Name des Webcrawler nur diesen spezifischen Bot anspricht:

Disallow: - mit diesem Befehl, in unserer robots.txt, können wir dem Webcrawler mitteilen, welche Verzeichnisse und/oder Dateien sich nicht lohnen in den Index der Suchmaschine aufgenommen zu werden. Ein Slash hinter dem „Disallow: „ bedeutet, daß der Inhalt der gesamten Seite nicht in den Index der Suchmaschine aufgenommen werden soll.

Möchten wir nur ein bestimmtes Verzeichnis aus unserer Joomla Webseite vom Index ausschließen dann müssen wir folgendes eintragen:

Wichtig ist hier, daß der Slash auch am Ende dieser Anweisung hinterlegt wird, da sonst auch andere Teile der Webseite unbeabsichtigt von der Indexierung ausgeschlossen werden –
„Disallow: /verzeichnis“ würde auch die URL www.meineDomain.com/verzeichnis.html von der Indexierung durch eine Suchmaschine ausschließen, was wir vielleicht gar nicht möchten!

Allow: - mit diesem Befehl, in unserer robots.txt, können wir dem Webcrawler mitteilen, welche Verzeichnisse und/oder Dateien sich aus unserer Sicht lohnen in den Index der Suchmaschine aufgenommen zu werden. Diese Anweisung ist jedoch kein Garant dafür, daß die Suchmaschine dieses Verzeichnis oder diese Datei tatsächlich in den Index speichert. Ein Slash hinter dem „Allow: „ bedeutet, daß der Inhalt der gesamten Seite in den Index der Suchmaschine aufgenommen werden soll.

Möchten wir nur ein bestimmtes Verzeichnis aus unserer Joomla Webseite zum indexieren freigeben dann müssen wir folgendes eintragen:

Sitemap: - optional können wir auch noch die Sitemap von unserer Joomla Webseite eintragen. Ich empfehle dies auch tatsächlich zu tun. Jedoch gibt es dabei wieder ein paar Kleinigkeiten zu beachten. Es muss sich um eine vollständig qualifizierte URL handeln, das bedeutet, daß die der Suchmaschinen-Crawler nicht verschiedene Varianten der URL prüft. Ist unsere Joomla Webseite über „https“ zu erreichen, dann muß auch die URL zu unserer Sitemap in der robots.txt mit „https“ beginnen. Das gleiche gilt für Webseiten mit und ohne „www“. In meinem Fall müsste die Anweisung so aussehen:

Beispiele die den Umgang mit der robots.txt veranschaulichen und das mögliche zeigen!

Die einfachste robots.txt ist allen Webcrawlern alles zu erlauben

In der ersten Zeile sehen wir einen Kommentar der darüber Informiert für welche Webseite diese robots.txt erstellt wurde. Durch das Sternchen (*) hinter „User-agent“ werden alle Webcrawler angesprochen. Da hinter dem „Disallow:“ kein Slash steht ist alles für eine Indexierung freigegeben. Die „Allow:“ Anweisung wird meist nur dann verwendet, wenn wir Ausnahmen generieren möchten – dazu weiter unten ein Beispiel

Dem Googlebot eingeschränkten Zugriff gewähren, jedoch alle anderen Webcrawler den gesamten Zugriff verwehren

Hier wird ein User-agent definiert, nämlich der „Googlebot“ dem in der zweiten Zeile der Zugriff auf die gesamte Webseite gewährt wird. Dieser Zugriff wird jedoch ab der dritten Zeile wieder eingeschränkt da bei einer Joomla-Webseite die aufgelisteten Verzeichnisse nicht den Weg in den Index einer Suchmaschine finden sollen. Zu beachten ist hier, daß jedes Verzeichnis, welches in der robots.txt aufgeführt wird, am Anfang und am Ende einen Slash „/“ hat.

Ein Verzeichnis in der robots.txt sperren, jedoch Dateien mit gewisser Dateierweiterung mithilfe von Wildcard zum indexieren durch Webcrawler freigeben

In diesem Beispiel aus einer robots.txt sehen wir, daß für den „Googlebot-Image“ der für das indexieren von Bildern zuständig ist, das Verzeichnis „bilder“ gesperrt wurde. Jedoch in der nächsten Zeile wurde eine Ausnahme generiert für Bilder mit der Dateierweiterung „jpg“. Das bedeutet, daß sämtliche Bilder mit der Dateierweiterung „jpg“ in den Index gespeichert werden dürfen, jedoch für sämtliche anderen Dateien die sich eventuell in diesem Verzeichnis befinden keine Freigabe zur Indexierung vorliegt.
Das Sternchen vor „.jpg“ nennt man eine Wildcard – ein Platzhalter. Damit ersparen wir uns jede einzelne Datei in der robots.txt aufzuführen.

Eine einzelne Datei aus einem bestimmten Verzeichnis, in der robots.txt sperren

Hier wird wieder der “Googlebot-Image” angesprochen, der die Datei „familie.jpg“ nicht indexieren darf.

Ähnliche Verzeichnisse mithilfe von einer Wildcard in der robots.txt für die Indexierung durch Webcrawler sperren

Durch diesen Eintrag in der robots.txt werden sämtliche Verzeichnisse von der Indexierung durch Suchmaschinen ausgeschlossen, die mit „Ordner“ beginnen. Zum Beispiel „Ordner1“ „Ordner2“ „OrdnerXY“

URL’s mit bestimmter Endung in der robots.txt von der Indexierung durch Suchmaschinen ausschließen

In diesem Fall sperren wir in unserer robots.txt sämtliche URLs vom indexieren durch den Googlebot, mit der Endung „.asp“ aus. „.asp“ steht für „active server page“. Das Sternchen vor „.asp“ ist wieder eine Wildcard und ersetzt den Anfang jeder in Frage kommenden URL oder Datei. Das $-Zeichen das Ende der URL oder Datei an.

No-Crawl-URLs in der robots.txt von der Indexierung durch Suchmaschinen ausschließen

Somit werden URLs die diesen Charakter besitzen von der Indexierung ausgeschlossen. Ein Beispiel wäre
https://www.meineDomain.com/?view=category&id=67 welche, bei Joomla Webseiten oder generell bei Content Management Systemen (CMS), des Öfteren zu sehen sind.

Auflistung der wichtigsten Webcrawler

Google Webcrawler:

Googlebot – Googlebot für Desktopcomputer und Smartphone crawlt alles
Googlebot-Image – Googlebot für Bilder
Googlebot-Video – Googlebot für Videos
Googlebot-News – Googlebot für Nachrichten
AdsBot-Google – Prüft die Anzeigenqualität für Webseiten, die für Desktop-Computer optimiert sind
Mediapartners-Google – AdSense
AdsBot-Google-Mobile-Apps – Prüft die Anzeigenqualität für Seiten, die für Android-Apps optimiert sind. Folgt dabei den Robots-Regeln von AdsBot-Google

Sämtliche zurzeit eingesetzte User-agent von Google

Bing Webcrawler:

Bingbot – Bingbot für Desktopcomputer und Smartphone crawlt alles
MSNBot-Media – Bingbot für Bilder und Videos

Sämtliche zurzeit eingesetzte User-agent von Bing

Yahoo Webcrawler:

Slurp – Yahoobot für Desktopcomputer und Smartphone

Wie können wir unsere robots.txt prüfen?

Google bietet einen kostenlosen Service zur Prüfung der robots.txt an. Zu finden ist dieser in der Google Search Console unter dem Menüpunkt „Crawling“ und dann auf „robots.txt tester“ klicken. Dies wird jedoch nur noch in der alten Version der Google Search Console angezeigt. Hier ein Link direkt zum Tester: robots.txt Tester von Google

Viele SEO-Agenturen bieten diesen Service ebenfalls kostenlos auf Ihren Webseiten an!

 

Zu guter Letzt habe ich hier noch ein Video aus meinem YouTube-Kanal welches Dich interessieren könnte:

Video Placeholder

Klicke hier um das Video zu laden!