SEO Beratung - Tim Berlin
  • SEO Beratung
  • Web Analytics
  • Referenzen
  • Über mich
  • SEO Blog & Tipps
  • Kontakt
  • Menü Menü

AI-Crawler Steuerung: ChatGPT, LLMs & KI sperren oder freigeben via robots.txt und IPs

LLM-AI-Crawler

Inhaltsverzeichnis

  • AI-Crawler Steuerung: ChatGPT, LLMs & KI sperren oder freigeben via robots.txt und IPs
    • AI-Crawler Typisierung
    • Die 4 Ebenen der AI-Crawler-Steuerung
    • Aktuelle AI-Crawler‑Compliance‑Matrix (Juli 2025)
    • Beispiel-Konfiguration einer robots.txt
    • Offizielle IP-Listen der LLM-Anbieter
    • Quellen

Die zunehmende Verbreitung und Nutzung von LLMs (Large-Language-Models) und KI-getriebenen Suchsystemen verändert das Crawling-Fundament des Webs in einem erheblichen Tempo: Zugriffe von AI-Crawlern wie GPTBot, ClaudeBot, Google-Extended oder PerplexityBot auf Websites sind in den letzten Monaten stark angestiegen und ein Ende wird wohl über das nächste Jahrzehnt nicht in Sicht sein.1 

Gleichzeitig zeigt sich, dass der Nutzertraffic über LLM-Verweise einen spürbaren Aufwind bekommt. In dieser Dynamik ist für viele Unternehmen und Website-Betreiber wichtig geworden, ein Gleichgewicht zwischen Sichtbarkeit in KI-Ergebnissen und Schutz geistigen Eigentums herzustellen. Der EU-AI-Act (Art. 53)2 verlangt zudem ein maschinen­lesbares Opt-out für Trainings­zwecke. Cloudflare reagiert als erste Plattform und blockiert KI-Crawler seit Juli 2025 als Standardeinstellung, sofern keine explizite Erlaubnis (oder monetärer Ausgleich) erfolgt.3

Dabei gilt: Nicht jeder Website-Betreiber möchte, dass die eigenen Inhalte zum Trainieren von KI-Modellen genutzt werden. Ein pauschales Blockieren ist jedoch nicht zielführend, denn Traffic-Quellen wie ChatGPT-Search oder Perplexity generieren echte Klicks.

Der Schlüssel liegt in einer strukturierten AI-Crawler / LLM-Bot-Steuerung – möglich dank einer zunehmend differenzierten Crawler-Typisierung durch viele LLM-Anbieter. Während einige Bots wie GPTBot primär fürs Modelltraining eingesetzt werden, dienen andere wie der OAI-SearchBot der Antwortgenerierung oder Echtzeitsuche. Diese Unterscheidung erlaubt es, gezielt Zugriff und Nutzung zu steuern, statt „alles oder nichts“ zu blockieren.

AI-Crawler Typisierung

Nachfolgende Übersicht zeigt die aktuell verwendeten KI-Bots bzw. ihre User-Agents der etablierten Anbieter und ihren primären Einsatzzweck:

Anbieter KI-Bot User-Agent Primärer Zweck Dokumentation
OpenAI GPTBot Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot Modell-Training OpenAI Docs
OAI-SearchBot contains: OAI-SearchBot/1.0; +https://openai.com/searchbot Suche
ChatGPT-User (1.x / 2.x) Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot User-Triggered Fetcher
Anthropic ClaudeBot contains: ClaudeBot Modell-Training Anthropic Support
Claude-SearchBot contains: Claude-SearchBot Suche
Claude-User contains: Claude-User User-Triggered Fetcher
Perplexity AI PerplexityBot Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot) Suche Perplexity Docs
Perplexity-User Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) User-Triggered Fetcher
Alphabet / Google Google-Extended contains: Google-Extended Modell-Training Google  Developers
User-Triggered Fetchers Diverse User-Triggered Fetcher Google Developers
Microsoft / Bing Bingbot contains: Bingbot Search-Index & optional Training Bing Blog
Apple Applebot contains: Applebot Spotlight / Siri Suche Apple Support
Applebot-Extended contains: Applebot-Extended Modell-Training
Amazon Amazonbot contains: Amazonbot Alexa Q&A-Index Amazon Developers
Meta meta-externalagent contains: meta-externalagent Modell-Training Meta Developers
DuckDuckGo DuckAssistBot contains: DuckAssistBot User-Triggered Fetcher DuckDuckGo Help
Common Crawl CCBot contains: CCBot Modell-Training CommonCrawl

Die 4 Ebenen der AI-Crawler-Steuerung

Die Steuerung von AI-Crawlern lässt sich über unterschiedliche Ebenen umsetzen. Jede Ebene adressiert einen anderen Angriffspunkt im Crawler-Lebenszyklus – vom ersten HTTP Request bis zur Weiterverwendung der Daten im Modell.

  1. robots.txt – Zugriffskontrolle
    Die Robots Exclusion Protocol-Datei legt fest, ob ein Bot eine URL überhaupt abrufen darf. Sie wird von den meisten etablierten LLM-Crawlern respektiert (GPTBot, ClaudeBot, Google-Extended u. a.).

  2. Robots-Meta-Tag / X-Robots-Tag – Nutzungskontrolle
    Header- oder Meta-Direktiven wie noai (Modell-Training über Texte untersagt) oder noimageai4 (Modell-Training über Bilder untersagt) oder auch können die Kontrolle auf die Verwendungs­ebene erweitern. Hier sei jedoch angemerkt, dass es sich zum aktuellen Zeitpunkt lediglich um einen Vorschlag handelt, den diverse Unternehmen und Einzelautoren aufgegriffen haben und ursprünglich Deviantart ins Spiel gebracht hat. Sie sind zum aktuellen Zeitpunkt keine etablierte Direktive in aktiver Nutzung und kein Bestandteil einer offiziellen Spezifikation.

  3. Netzwerk-Filter und Rate-Limit
    CDN- und WAF-Regeln (z. B. Cloudflare, Fastly, AWS WAF) können den Zugriff verhindern/einschränken oder erlauben ein Whitelisting direkt auf Netzwerkebene. Gleichzeitige IP-/ASN-Validierung / ReverseDNS schützt vor Spoofing, während dynamische Rate-Limits Serverressourcen schonen können. Diese Ebene ist die technisch verlässlichste.

  4. Lizenz- und Monetarisierungs­layer
    In ai-policy.json oder einem künftigen usage-rights-Meta-Tag5 lassen sich Nutzungs­zwecke (Search, Training, Commercial usw.) sowie Vergütungs­modelle maschinen­lesbar deklarieren. Noch handelt es sich um einen Industrie-/Community-Entwurf, doch CDN-Anbieter wie Cloudflare testen bereits Pay-Per-Crawl-Flows. Diese Ebene soll perspektivisch die heute fehlende wirtschaftliche Komponente schließen.

Ebene Zweck Standard Verlässlich?
robots.txt Crawl ja/nein REP (RFC 9309) überwiegend
Robots-Meta-Tag & X-Robots-Tag Nutzung steuern IETF-Draft
(noai, noimageai, DisallowAITraining etc.);
Bing (nocache/noarchive), Amazon (noarchive)
aktuell überwiegend nur als Vorschlag vorhanden bis auf nocache/noarchive von Bing und noarchive von Amazon
Rate-Limit / ASN-Filter / Whitelist / Blacklist Abuse & Spoofing blockieren / Whitelisting / Blacklisting CDN-/WAF-Rules ja
Lizenzierung Lizenzierung und Monetarisierung regeln ai-policy.json / Meta-Tag usage-rights mögliche Zukunft / Proposal

Aktuelle AI-Crawler‑Compliance‑Matrix (Juli 2025)

Im Gesamtbild der unterschiedlichen Steuerungsmöglichkeiten hat sich die robots.txt oder auch eine harte Steuerung des Zugriffs über Netzwerksperren (CDN/WAF etc.) der AI-Crawler etabliert.

Provider User-Agent(s) robots.txt noai / noimageai / NOARCHIVE / NOCACHE
OpenAI GPTBot, ChatGPT-User, OAI-SearchBot Ja Nein
Anthropic ClaudeBot, anthropic-ai Ja Nein
Perplexity PerplexityBot Ja Nein
Google Google-Extended Ja Nein
Microsoft / Bing BingBot Ja Nein, Alternative: NOARCHIVE / NOCACHE
Apple Applebot, Applebot-Extended Ja Nein
Amazon Amazonbot Ja Nein, Alternative: NOARCHIVE
Meta meta-externalagent Teilweise Nein
Common Crawl CCBot Ja Nein

Beispiel-Konfiguration einer robots.txt

Folgendes Beispiel zeigt exemplarisch einen Crawling-Ausschluß für die angebenen User-Agents in der robots.txt:

Offizielle IP-Listen der LLM-Anbieter

  • OpenAI
    • https://openai.com/gptbot.json
    • https://openai.com/searchbot.json
    • https://openai.com/chatgpt-user.json
  • Anthropic
    • https://docs.anthropic.com/en/api/ip-addresses
  • Perplexity
    • https://www.perplexity.ai/perplexitybot.json
    • https://www.perplexity.ai/perplexity-user.json
  • Google
    • https://developers.google.com/search/apis/ipranges/googlebot.json
    • https://developers.google.com/search/apis/ipranges/special-crawlers.json
    • https://developers.google.com/search/apis/ipranges/user-triggered-fetchers.json
    • https://developers.google.com/search/apis/ipranges/user-triggered-fetchers-google.json
  • Bing
    • https://www.bing.com/toolbox/bingbot.json
  • DuckDuckGo
    • https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot

Quellen

[1] https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/
[2] https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=OJ:L_202401689
[3] https://www.cloudflare.com/de-de/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
[4] https://www.deviantart.com/team/journal/UPDATE-All-Deviations-Are-Opted-Out-of-AI-Datasets-934500371
[5] https://searchengineland.com/robots-txt-new-meta-tag-llm-ai-429510

Autor: Tim Berlin

Seit 2005 bin ich in unterschiedlichen Zweigen des Online-Marketings und der Suchmaschinenoptimierung tätig. Durch innovative Strategien und maßgeschneiderte Lösungen unterstütze ich national und international aufgestellte Unternehmen als SEO Berater ihr organisches Wachstum und die digitale Sichtbarkeit zu steigern, um mehr Traffic und Sales zu generieren. Zudem arbeite ich als Head of SEO für die kfzteile24 GmbH. Mein Wissen gebe ich gerne in Fachbeiträgen und Workshops weiter.

Mehr über Tim Berlin

Suche

Neueste Beiträge

  • AI-Crawler Steuerung: ChatGPT, LLMs & KI sperren oder freigeben
  • hreflang XML-Sitemaps mit Python selbst generieren
  • Linkmaskierung mit Base64 und Javascript
Copyright © Tim Berlin
  • Twitter
  • LinkedIn
  • Xing
  • Github
  • Cookie-Richtlinie
  • Datenschutz
  • Impressum
Nach oben scrollen
Cookie-Zustimmung verwalten
Um die Nutzerfreundlichkeit der Website so einfach wie möglich zu gestalten, verwenden wir nur die nötigsten Cookies. Zur Cookie-Richtlinie | Datenschutzerklärung
Funktional Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
Optionen verwalten Dienste verwalten Verwalten von {vendor_count}-Lieferanten Lese mehr über diese Zwecke
Einstellungen
{title} {title} {title}