GEO (AI Search)

llms.txt dla SEO: jak przygotować plik dla AI Overview i ChatGPT

GRI81A
llms.txt dla SEO: jak przygotować plik dla AI Overview i ChatGPT

llms.txt to nie robots.txt — czym naprawdę jest ten plik

llms.txt to otwarty standard zaproponowany przez Jeremy’ego Howarda (fast.ai) w 2024 roku, który pozwala właścicielom stron przekazywać modelom językowym ustrukturyzowane informacje o witrynie w formacie Markdown. W odróżnieniu od robots.txt — który mówi crawlerom czego nie indeksować — llms.txt mówi LLM co warto przeczytać i zacytować. To subtelna, ale fundamentalna różnica: jeden plik blokuje, drugi rekomenduje.

Google AI Overview, ChatGPT z funkcją web browsing oraz Perplexity coraz częściej sięgają po ten plik podczas generowania odpowiedzi. Wg danych zebranych przez Anthropic i fast.ai (2025), strony posiadające llms.txt są indeksowane przez LLM-crawlery szybciej i kompletniej niż strony bez tego pliku. Jeśli prowadzisz działania z zakresu Generative Engine Optimization, llms.txt jest jednym z pierwszych elementów technicznych do wdrożenia.

Struktura pliku llms.txt — schemat i obowiązkowe sekcje

Plik llms.txt musi być zapisany w czystym Markdown (UTF-8, bez BOM). Standard definiuje kilka sekcji — dwie z nich są obowiązkowe, pozostałe opcjonalne, ale silnie rekomendowane.

  • # Nazwa witryny — nagłówek H1 z nazwą lub domeną (obowiązkowy)
  • > Opis — jeden akapit blockquote z opisem strony i jej głównego tematu (obowiązkowy)
  • ## Sekcja z linkami — lista URL-i z opisami, np. ## Docs, ## Blog, ## Services
  • ## Optional — linki do zasobów mniej priorytetowych (LLM może je pominąć przy ograniczonym kontekście)

Przykład minimalnej struktury dla witryny agencji:

# PremiumAds

> Agencja Google Ads i SEO z Gdyni. Specjalizacja: kampanie Performance Max, audyty GA4, Consent Mode v2, GEO.

## Usługi
- Google Ads: zarządzanie kampaniami, audyt GAQS, Performance Max
- SEO: pozycjonowanie, audyt SAQS, link building
- GEO: optymalizacja pod AI Overview i LLM

## Blog
- llms.txt dla SEO: jak przygotować plik dla AI
- Consent Mode v2: wdrożenie krok po kroku

## Optional
- Kontakt: formularz kontaktowy i dane firmy

Opisy przy linkach są kluczowe — LLM używa ich do oceny relevance zasobu względem zapytania użytkownika. Pusty link bez opisu ma znacznie mniejszą wartość cytowania.

Gdzie umieścić llms.txt — ścieżka i uprawnienia serwera

Plik musi być dostępny pod adresem https://twojadomena.pl/llms.txt — bezpośrednio w katalogu głównym (document root). Nie ma możliwości umieszczenia go w podkatalogu i deklarowania lokalizacji w innym miejscu (w odróżnieniu od sitemap, której URL można podać w robots.txt). LLM-crawlery sprawdzają tę ścieżkę z góry, bez żadnej konfiguracji po stronie webmastera.

  • Uprawnienia pliku: 644 (odczyt dla wszystkich)
  • Content-Type odpowiedzi HTTP: text/plain; charset=utf-8
  • Kod HTTP: 200 OK — plik nie może zwracać przekierowania 301/302
  • Rozmiar: wg specyfikacji max ~2 000 linii; praktycznie trzymaj się poniżej 100 KB

Jeśli używasz WordPressa, możesz umieścić plik fizycznie w katalogu /public_html/ lub wygenerować go dynamicznie przez niestandardowy endpoint — ważne, żeby serwer zwracał poprawny Content-Type. Na serwerach Nginx dodaj regułę: location = /llms.txt { add_header Content-Type "text/plain; charset=utf-8"; }.

Różnice między llms.txt, robots.txt i sitemap.xml

Trzy pliki pełnią różne funkcje i powinny współistnieć — żaden nie zastępuje pozostałych. Poniższa tabela porównuje ich role:

Plik Adresat Funkcja Format Wpływ na ranking Google
robots.txt Crawlery (Googlebot, GPTBot) Blokowanie/zezwalanie na indeksację Własny (dyrektywy) Pośredni (kontrola crawl budget)
sitemap.xml Crawlery wyszukiwarek Lista URL do zaindeksowania XML Pośredni (szybkość indeksacji)
llms.txt Modele językowe (LLM) Rekomendacja treści do cytowania Markdown Brak bezpośredniego (GEO)

Warto zaznaczyć: robots.txt może blokować GPTBot (crawler OpenAI) lub ClaudeBot (Anthropic), co uniemożliwi tym modelom odczyt llms.txt. Jeśli zależy Ci na cytowaniach przez ChatGPT, upewnij się, że GPTBot nie jest zablokowany w robots.txt — to jeden z najczęstszych błędów, które widzimy w audytach GEO.

Jak zweryfikować llms.txt w Google Search Console i narzędziach zewnętrznych

Google Search Console (stan na 2025) nie posiada dedykowanego raportu dla llms.txt — plik nie jest częścią protokołu Sitemaps. Weryfikację przeprowadza się innymi metodami:

  1. Ręczny fetch — wpisz curl -I https://twojadomena.pl/llms.txt i sprawdź nagłówki: kod 200 i poprawny Content-Type.
  2. Narzędzie llmstxt.org/check — walidator online zgodny ze specyfikacją fast.ai (wg llmstxt.org, 2025).
  3. Perplexity test — zapytaj Perplexity o Twoją firmę i sprawdź, czy cytuje strony wymienione w llms.txt.
  4. Log serwera — filtruj user-agenty: GPTBot, ClaudeBot, PerplexityBot, Google-Extended. Ich wizyty na /llms.txt potwierdzają, że plik jest odczytywany.

Monitoring logów to najbardziej wiarygodna metoda — jeśli boty AI nie odwiedzają pliku, wróć do konfiguracji robots.txt i sprawdź, czy ścieżka jest dostępna. W ramach naszych usług audytu SEO uwzględniamy analizę logów pod kątem crawlerów AI jako osobny punkt.

Błędy w llms.txt, które niszczą potencjał cytowania

Na podstawie wdrożeń przeprowadzonych w ramach ponad 60 kampanii i projektów GEO wyróżniamy sześć błędów powtarzających się najczęściej:

  • Brak opisów przy linkach — sam URL bez kontekstu jest dla LLM mało wartościowy; model nie wie, czego dotyczy zasób.
  • Zbyt ogólny opis w blockquote — „Firma oferuje usługi marketingowe” to opis, który nie pomoże modelowi dopasować strony do konkretnego zapytania.
  • Linki do stron z noindex — jeśli strona ma meta tag noindex, LLM-crawler i tak jej nie przetworzy; link w llms.txt nic nie zmieni.
  • Plik w podkatalogu/blog/llms.txt nie jest odczytywany; musi być w root.
  • Zablokowany GPTBot/ClaudeBot w robots.txt — plik llms.txt jest wtedy niewidoczny dla tych modeli.
  • Nieaktualne linki — URL-e zwracające 404 obniżają wiarygodność całego pliku w oczach modelu.

Błąd z blockquote jest szczególnie kosztowny — to właśnie ten fragment LLM czyta w pierwszej kolejności, decydując, czy witryna jest relevantna dla zapytania użytkownika. Traktuj go jak meta description, ale pisany dla AI, nie dla człowieka.

Monitoring cytowań: jak sprawdzić, czy LLM faktycznie czyta Twój plik

Samo umieszczenie pliku to za mało — potrzebujesz systemu monitoringu, który potwierdzi, że LLM-crawlery go odwiedzają i że Twoje treści pojawiają się w odpowiedziach generatywnych. Oto praktyczny stack:

  • Logi serwera + GoAccess / AWStats — filtruj po user-agencie; szukaj GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Amazonbot.
  • Perplexity / ChatGPT — manualne testy — co 2-4 tygodnie zapytaj o tematy, w których chcesz być cytowany; sprawdź źródła odpowiedzi.
  • Brandwatch / Mention — monitoring wzmianek o marce w odpowiedziach AI (funkcja dostępna w planach enterprise, wg Brandwatch 2025).
  • Google Search Console — raport AI Overview — Google udostępnia dane o kliknięciach z AI Overview w GSC (wg Google Search Central, 2025); śledź ten raport osobno od klasycznego CTR.

Jeśli prowadzisz kampanie Google Ads i chcesz zrozumieć, jak GEO wpływa na całościowy funnel — warto połączyć dane z GSC z danymi z kampanii Google Ads, żeby zobaczyć, czy wzrost cytowań AI przekłada się na konwersje.

llms.txt a lokalne wdrożenia — specyfika rynku polskiego

Na rynku polskim adopcja llms.txt jest wciąż niska — wg naszych obserwacji (PremiumAds, 2025) mniej niż 5% polskich witryn biznesowych posiada ten plik. To oznacza, że wdrożenie go teraz daje realną przewagę konkurencyjną, zanim standard się upowszechni. AI Overview po polsku jest dostępne od 2024 roku i Google-Extended aktywnie crawluje polskie domeny.

Kilka uwag specyficznych dla polskiego kontekstu:

  • Opisy w llms.txt pisz po polsku — LLM obsługujące zapytania w języku polskim lepiej dopasowują polskojęzyczne opisy do zapytań użytkowników.
  • Uwzględnij frazy długiego ogona charakterystyczne dla polskiego rynku (np. „agencja Google Ads Gdynia” zamiast tylko „Google Ads agency”).
  • Jeśli masz wersje językowe, rozważ osobne pliki: /llms.txt (PL) i /en/llms.txt (EN) — standard nie definiuje obsługi hreflang, ale praktyka pokazuje, że rozdzielenie wersji poprawia trafność cytowań.

Kiedy llms.txt nie wystarczy — szerszy kontekst GEO

llms.txt to jeden element układanki GEO, nie kompletna strategia. Modele językowe cytują treści na podstawie wielu sygnałów: jakości i autorytetu domeny, struktury danych (Schema.org), liczby zewnętrznych odwołań do strony oraz czytelności tekstu dla modeli (krótkie akapity, listy, tabele). Plik llms.txt zwiększa discoverability, ale nie zastąpi wartościowej treści.

W PremiumAds stosujemy autorską metodologię scoringową GRI (Generative Relevance Index, skala 0–100), która ocenia gotowość witryny do cytowania przez LLM w pięciu wymiarach: struktura techniczna, jakość treści, autorytet domeny, dane strukturalne i konfiguracja plików AI (w tym llms.txt). Jeśli chcesz wiedzieć, gdzie Twoja strona wypada w tym zestawieniu — skontaktuj się z nami, przeprowadzimy bezpłatny wstępny audyt GRI.

Często zadawane pytania

Czy llms.txt wpływa na pozycje w klasycznym rankingu Google?

Nie bezpośrednio. llms.txt nie jest sygnałem rankingowym dla klasycznego algorytmu Google. Wpływa natomiast na widoczność w AI Overview — a kliknięcia z AI Overview są rejestrowane w Google Search Console jako osobny kanał. Pośrednio wzrost ruchu z AI Overview może poprawić sygnały behawioralne strony.

Czy GPTBot musi mieć dostęp, żeby ChatGPT cytował moją stronę?

Tak, dla cytowań w czasie rzeczywistym (ChatGPT z web browsing) GPTBot musi móc crawlować stronę. Jeśli GPTBot jest zablokowany w robots.txt, ChatGPT nie odczyta llms.txt ani treści podstron. Natomiast modele trenowane na danych historycznych mogą zawierać Twoje treści niezależnie od bieżącej konfiguracji robots.txt — ale to nie jest kontrolowalne przez llms.txt.

Jak często aktualizować plik llms.txt?

Wg specyfikacji fast.ai (2025) nie ma wymaganej częstotliwości, ale praktyka wskazuje na aktualizację przy każdej istotnej zmianie struktury serwisu — nowe usługi, nowe kluczowe artykuły blogowe, zmiany URL. Dobrą praktyką jest przegląd pliku raz na kwartał i usunięcie linków zwracających 404.

Czy llms.txt działa dla sklepów e-commerce z tysiącami produktów?

Tak, ale plik powinien wskazywać na strony kategorii i kluczowe landing page'e, nie na każdy produkt z osobna. Limit praktyczny to kilkaset linków — powyżej tej liczby LLM może obciąć kontekst i nie przetworzyć całego pliku. Dla e-commerce warto wydzielić sekcję z bestselerami lub kategoriami o najwyższym potencjale cytowania.

Czy llms.txt zastępuje dane strukturalne Schema.org?

Nie — oba rozwiązania są komplementarne. Schema.org dostarcza maszynowo czytelnych metadanych na poziomie konkretnej strony (produkt, artykuł, FAQ), a llms.txt opisuje całą witrynę na poziomie katalogu. Optymalny setup GEO obejmuje zarówno poprawne Schema.org, jak i skonfigurowany llms.txt.

Jakie user-agenty crawlerów AI powinienem monitorować w logach?

Kluczowe user-agenty w 2025 roku to: GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity AI), Google-Extended (Google AI), Amazonbot (Amazon Alexa/AI), YouBot (You.com) oraz Applebot-Extended (Apple Intelligence). Wg dokumentacji każdego z dostawców (2025) wszystkie te boty respektują dyrektywy robots.txt i powinny odwiedzać llms.txt, jeśli nie są zablokowane.

5 1 głos
Ocena artykułu
Subskrybuj
Powiadom o
guest
0 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze

Potrzebujesz wsparcia w temacie z artykułu?

Zajmujemy się Google Ads, SEO, GA4, GEO i RODO od 12 lat. Odpowiada Maciej w 24h, bez handlowca, bez automatu.

Napisz do nas