Aufgepasst bei der robots.txt

Die robots.txt-Datei ist eines der einfachsten, aber gleichzeitig am häufigsten missverstandenen Werkzeuge der Suchmaschinenoptimierung. Sie entscheidet darüber, welche Teile deiner Website für Suchmaschinen zugänglich sind… oder eben nicht. In diesem Artikel zeige ich dir aus meiner Langjährigen Erfahrung als SEO Consultant, wie die Robots.txt Datei funktioniert, welche Anforderungen sie erfüllen muss und welche Fehler du besser vermeidest. Zum Prüfen eurer robots.txt habe ich ein kleinen Robots.txt Validator für euch bereitgestellt.

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis einer Domain liegt, also z. B. unter https://www.deine-domain.de/robots.txt. Sie ist ein Bestandteil des sogenannten Robots Exclusion Protocols (REP), mit dem Website-Betreiber Suchmaschinen-Crawlern Anweisungen geben können, welche Inhalte sie nicht crawlen sollen.

Wichtig: Die robots.txt ist eine Aufforderung, kein zwingendes Verbot. Seriöse Crawler wie von Google oder Bing halten sich daran, andere (z. B. von Spam-Bots) möglicherweise nicht.

Aufbau und Syntax der robots.txt

Die Datei besteht aus sogenannten User-agent- und Disallow- bzw. Allow-Anweisungen. So sieht eine einfache robots.txt aus:

User-agent: *
Disallow: /admin/
Allow: /admin/public/

Was bedeuten die Einträge?

User-agent – Gibt an, für welchen Crawler die Anweisung gilt. * steht für „alle Crawler“.
Disallow – Verhindert das Crawlen bestimmter Pfade.
Allow – Erlaubt explizit das Crawlen bestimmter Pfade (nützlich z. B. bei gegensätzlichen Regeln).

Wichtige technische Anforderungen

Damit deine robots.txt korrekt funktioniert, musst du ein paar Dinge beachten:

UTF-8: Die Datei sollte im UTF-8-Format ohne BOM gespeichert sein.
Pfadangaben: Groß- und Kleinschreibung beachten – /Admin/ ≠ /admin/.
Zugriff: Die Datei muss öffentlich und ohne Weiterleitung unter /robots.txt abrufbar sein.
Keine HTML-Datei: Nur Plain-Text, keine HTML- oder PHP-Dateien.
Maximalgröße: Google akzeptiert nur die ersten 500 KB der Datei – alles darüber wird ignoriert.

Häufige Fehler in der Praxis

Gerade bei Relaunches oder CMS-Wechseln ist die robots.txt eine unterschätzte Fehlerquelle. Hier ein paar Klassiker, die dir besser nicht passieren sollten:

❌ 1. Disallow: / – Totalausfall des Crawlings
Dieser Eintrag blockiert die komplette Website für alle Crawler. Das ist z. B. in Staging-Umgebungen sinnvoll – sollte aber niemals im Livesystem eingesetzt werden.

❌ 2. Wichtige Ressourcen blockiert
Viele blockieren unbedacht pfade wie z.B. /other/ oder /assets/. Wenn dort aber JavaScript- oder CSS-Dateien liegen, kann Google deine Seite nicht korrekt rendern, was sich negativ auf die Indexierung auswirken kann.

❌ 3. Datei nicht erreichbar (404)
Wenn die robots.txt fehlt oder mit einem 404-Statuscode ausgeliefert wird, interpretieren das viele Crawler als „alles erlaubt“, ähnlich bei Fehlerhaften robots.txt einträgen, während andere Bots konservativer vorgehen.

❌ 4. Regelchaos durch CMS-Plugins
Manche SEO-Plugins schreiben eigene Regeln oder überschreiben manuelle Einträge. Achte darauf, dass du weißt, wer deine robots.txt verwaltet und was darin stehen muss.

❌ 5. Kein Unterschied zwischen Crawling und Indexierung
Die robots.txt verhindert lediglich das Crawling von Webseiten, nicht aber zwangsläufig deren Indexierung. Wenn eine URL auf externen Seiten verlinkt ist, kann sie dennoch in den Google-Index aufgenommen werden, allerdings dann ohne Inhalt. Dies kann zu einer „Vermüllung“ des Index führen und die Ranking-Stärke deiner Domain beeinträchtigen. Verwende stattdessen besser das noindex-Meta-Tag für eine effektivere Kontrolle. Wichtig: Dieses Tag funktioniert nur, wenn die Seite auch gecrawlt werden darf!

❌ 6. Besondere Vorsicht bei Website-Relaunches
Bei Website-Relaunches, Aktualisierungen oder CMS-Wechseln ist besondere Aufmerksamkeit gefragt. In meiner Praxis als SEO-Berater beobachte ich regelmäßig kritische Fehler: Häufig wird versehentlich die robots.txt der Entwicklungsumgebung, die sämtliches Crawling blockiert, auf die Live-Seite übertragen. Die Folge sind massive Einbrüche im Ranking und Sichtbarkeitsverluste. Stelle daher sicher, dass vor jedem Go-Live die robots.txt-Datei gründlich geprüft wird und implementiere idealerweise Kontrollmechanismen in deinen Launch-Prozess.

Best Practices für deine robots.txt

Erlaube das Crawlen aller Seiten, die du indexiert und Rankend haben möchtest.
Blockiere nur, was definitiv nicht in den Suchmaschinen erscheinen soll (z. B. Backend, interne APIs).
Teste die Datei regelmäßig mit einem robots.txt Tester deiner wahl.
Kombiniere die robots.txt mit anderen SEO-Techniken wie Canonical-Tags und noindex.
Setze einen angemessenen Crawl-Delay für Bots, die viele Anfragen stellen, um Serverüberlastung zu vermeiden.
Spezifiziere die Sitemap-URL in der robots.txt, damit Suchmaschinen diese leichter finden können
Verwende präzise Pfad-Definitionen statt zu allgemeiner Wildcard-Muster.
Differenziere zwischen den verschiedenen User-Agents, um unterschiedliche Regeln für verschiedene Suchmaschinen Bots festzulegen.
Blockiere Ordner mit Duplikat-Inhalten (z.B. Druck- oder Archivversionen).
Schütze sensible Bereiche wie Login-Seiten, Warenkorb und Checkout-Seiten.
Prüfe regelmäßig die Server-Logs, um festzustellen, ob Crawler deine Regeln auch befolgen.
Vergiss nicht, dass dynamische Parameter in URLs (z.B. Tracking-Parameter) separat behandelt werden sollten.
Halte die robots.txt-Datei möglichst schlank und übersichtlich.

Bedenke aber, dass für besonders sensible Inhalte eine robots.txt nicht ausreicht, hier solltest du zusätzlich eine Passwortabfrage oder andere Sicherheitsmaßnahmen implementieren.

Fazit zur Robots.txt

Zusammenfassend lässt sich sagen, dass die robots.txt-Datei ein ein unverzichtbares Werkzeug im SEO-Bereich ist und ein grundlegendes, aber oft unterschätztes Element für jeden Webseiten Betreiber. Obwohl sie technisch gesehen erst einmal recht simpel erscheint, birgt sie bei falscher Anwendung erhebliche Risiken und Probleme, angefangen beim versehentlichen Ausschluss der gesamten Website (Disallow: /) bis hin zur Blockade wichtiger Ressourcen, die das Rendering und somit die Indexierung beeinträchtigen.

Entscheidend ist das Verständnis, dass die robots.txt primär das Crawling steuern kann, aber nicht zwingend die Indexierung verhindert. Für Letzteres ist das noindex-Meta-Tag das geeignetere Mittel, welches jedoch nur auf Seiten funktioniert die auch gecrawlt werden können.

Eine gut konfigurierte, regelmäßig geprüfte und gemäß den Best Practices (wie der Sitemap-Angabe und präzisen Pfaddefinitionen) gepflegte robots.txt ist unerlässlich. Sie lenkt Suchmaschinen-Crawler effektiv, schützt unwichtige oder interne Bereiche und bildet, in Kombination mit anderen Techniken, eine solide Basis für eine erfolgreiche Suchmaschinenoptimierung. Vergiss jedoch nicht: Für wirklich sensible Daten ist sie kein ausreichender Schutz, hier sind zusätzliche Sicherheitsmaßnahmen erforderlich.

Achtet man ein bisschen auf die eigene robots.txt und hällt sich an die Grundlagen, wird sie nicht zur Stolperfalle, sondern zum wertvollen Helfer für bessere Rankings und eine ressourcenschonende Indexierung der Website. Also Teste jetzt deine Robots.txt mit dem Robots.txt Validator!