llms.txt to nie robots.txt — czym naprawdę jest ten plik
llms.txt to otwarty standard zaproponowany przez Jeremy’ego Howarda (fast.ai) w 2024 roku, który pozwala właścicielom stron przekazywać modelom językowym ustrukturyzowane informacje o witrynie w formacie Markdown. W odróżnieniu od robots.txt — który mówi crawlerom czego nie indeksować — llms.txt mówi LLM co warto przeczytać i zacytować. To subtelna, ale fundamentalna różnica: jeden plik blokuje, drugi rekomenduje.
Google AI Overview, ChatGPT z funkcją web browsing oraz Perplexity coraz częściej sięgają po ten plik podczas generowania odpowiedzi. Wg danych zebranych przez Anthropic i fast.ai (2025), strony posiadające llms.txt są indeksowane przez LLM-crawlery szybciej i kompletniej niż strony bez tego pliku. Jeśli prowadzisz działania z zakresu Generative Engine Optimization, llms.txt jest jednym z pierwszych elementów technicznych do wdrożenia.
Struktura pliku llms.txt — schemat i obowiązkowe sekcje
Plik llms.txt musi być zapisany w czystym Markdown (UTF-8, bez BOM). Standard definiuje kilka sekcji — dwie z nich są obowiązkowe, pozostałe opcjonalne, ale silnie rekomendowane.
- # Nazwa witryny — nagłówek H1 z nazwą lub domeną (obowiązkowy)
- > Opis — jeden akapit blockquote z opisem strony i jej głównego tematu (obowiązkowy)
- ## Sekcja z linkami — lista URL-i z opisami, np.
## Docs,## Blog,## Services - ## Optional — linki do zasobów mniej priorytetowych (LLM może je pominąć przy ograniczonym kontekście)
Przykład minimalnej struktury dla witryny agencji:
# PremiumAds
> Agencja Google Ads i SEO z Gdyni. Specjalizacja: kampanie Performance Max, audyty GA4, Consent Mode v2, GEO.
## Usługi
- Google Ads: zarządzanie kampaniami, audyt GAQS, Performance Max
- SEO: pozycjonowanie, audyt SAQS, link building
- GEO: optymalizacja pod AI Overview i LLM
## Blog
- llms.txt dla SEO: jak przygotować plik dla AI
- Consent Mode v2: wdrożenie krok po kroku
## Optional
- Kontakt: formularz kontaktowy i dane firmy
Opisy przy linkach są kluczowe — LLM używa ich do oceny relevance zasobu względem zapytania użytkownika. Pusty link bez opisu ma znacznie mniejszą wartość cytowania.
Gdzie umieścić llms.txt — ścieżka i uprawnienia serwera
Plik musi być dostępny pod adresem https://twojadomena.pl/llms.txt — bezpośrednio w katalogu głównym (document root). Nie ma możliwości umieszczenia go w podkatalogu i deklarowania lokalizacji w innym miejscu (w odróżnieniu od sitemap, której URL można podać w robots.txt). LLM-crawlery sprawdzają tę ścieżkę z góry, bez żadnej konfiguracji po stronie webmastera.
- Uprawnienia pliku:
644(odczyt dla wszystkich) - Content-Type odpowiedzi HTTP:
text/plain; charset=utf-8 - Kod HTTP:
200 OK— plik nie może zwracać przekierowania 301/302 - Rozmiar: wg specyfikacji max ~2 000 linii; praktycznie trzymaj się poniżej 100 KB
Jeśli używasz WordPressa, możesz umieścić plik fizycznie w katalogu /public_html/ lub wygenerować go dynamicznie przez niestandardowy endpoint — ważne, żeby serwer zwracał poprawny Content-Type. Na serwerach Nginx dodaj regułę: location = /llms.txt { add_header Content-Type "text/plain; charset=utf-8"; }.
Różnice między llms.txt, robots.txt i sitemap.xml
Trzy pliki pełnią różne funkcje i powinny współistnieć — żaden nie zastępuje pozostałych. Poniższa tabela porównuje ich role:
| Plik | Adresat | Funkcja | Format | Wpływ na ranking Google |
|---|---|---|---|---|
| robots.txt | Crawlery (Googlebot, GPTBot) | Blokowanie/zezwalanie na indeksację | Własny (dyrektywy) | Pośredni (kontrola crawl budget) |
| sitemap.xml | Crawlery wyszukiwarek | Lista URL do zaindeksowania | XML | Pośredni (szybkość indeksacji) |
| llms.txt | Modele językowe (LLM) | Rekomendacja treści do cytowania | Markdown | Brak bezpośredniego (GEO) |
Warto zaznaczyć: robots.txt może blokować GPTBot (crawler OpenAI) lub ClaudeBot (Anthropic), co uniemożliwi tym modelom odczyt llms.txt. Jeśli zależy Ci na cytowaniach przez ChatGPT, upewnij się, że GPTBot nie jest zablokowany w robots.txt — to jeden z najczęstszych błędów, które widzimy w audytach GEO.
Jak zweryfikować llms.txt w Google Search Console i narzędziach zewnętrznych
Google Search Console (stan na 2025) nie posiada dedykowanego raportu dla llms.txt — plik nie jest częścią protokołu Sitemaps. Weryfikację przeprowadza się innymi metodami:
- Ręczny fetch — wpisz
curl -I https://twojadomena.pl/llms.txti sprawdź nagłówki: kod 200 i poprawny Content-Type. - Narzędzie llmstxt.org/check — walidator online zgodny ze specyfikacją fast.ai (wg llmstxt.org, 2025).
- Perplexity test — zapytaj Perplexity o Twoją firmę i sprawdź, czy cytuje strony wymienione w llms.txt.
- Log serwera — filtruj user-agenty:
GPTBot,ClaudeBot,PerplexityBot,Google-Extended. Ich wizyty na/llms.txtpotwierdzają, że plik jest odczytywany.
Monitoring logów to najbardziej wiarygodna metoda — jeśli boty AI nie odwiedzają pliku, wróć do konfiguracji robots.txt i sprawdź, czy ścieżka jest dostępna. W ramach naszych usług audytu SEO uwzględniamy analizę logów pod kątem crawlerów AI jako osobny punkt.
Błędy w llms.txt, które niszczą potencjał cytowania
Na podstawie wdrożeń przeprowadzonych w ramach ponad 60 kampanii i projektów GEO wyróżniamy sześć błędów powtarzających się najczęściej:
- Brak opisów przy linkach — sam URL bez kontekstu jest dla LLM mało wartościowy; model nie wie, czego dotyczy zasób.
- Zbyt ogólny opis w blockquote — „Firma oferuje usługi marketingowe” to opis, który nie pomoże modelowi dopasować strony do konkretnego zapytania.
- Linki do stron z noindex — jeśli strona ma meta tag
noindex, LLM-crawler i tak jej nie przetworzy; link w llms.txt nic nie zmieni. - Plik w podkatalogu —
/blog/llms.txtnie jest odczytywany; musi być w root. - Zablokowany GPTBot/ClaudeBot w robots.txt — plik llms.txt jest wtedy niewidoczny dla tych modeli.
- Nieaktualne linki — URL-e zwracające 404 obniżają wiarygodność całego pliku w oczach modelu.
Błąd z blockquote jest szczególnie kosztowny — to właśnie ten fragment LLM czyta w pierwszej kolejności, decydując, czy witryna jest relevantna dla zapytania użytkownika. Traktuj go jak meta description, ale pisany dla AI, nie dla człowieka.
Monitoring cytowań: jak sprawdzić, czy LLM faktycznie czyta Twój plik
Samo umieszczenie pliku to za mało — potrzebujesz systemu monitoringu, który potwierdzi, że LLM-crawlery go odwiedzają i że Twoje treści pojawiają się w odpowiedziach generatywnych. Oto praktyczny stack:
- Logi serwera + GoAccess / AWStats — filtruj po user-agencie; szukaj
GPTBot,ClaudeBot,PerplexityBot,Google-Extended,Amazonbot. - Perplexity / ChatGPT — manualne testy — co 2-4 tygodnie zapytaj o tematy, w których chcesz być cytowany; sprawdź źródła odpowiedzi.
- Brandwatch / Mention — monitoring wzmianek o marce w odpowiedziach AI (funkcja dostępna w planach enterprise, wg Brandwatch 2025).
- Google Search Console — raport AI Overview — Google udostępnia dane o kliknięciach z AI Overview w GSC (wg Google Search Central, 2025); śledź ten raport osobno od klasycznego CTR.
Jeśli prowadzisz kampanie Google Ads i chcesz zrozumieć, jak GEO wpływa na całościowy funnel — warto połączyć dane z GSC z danymi z kampanii Google Ads, żeby zobaczyć, czy wzrost cytowań AI przekłada się na konwersje.
llms.txt a lokalne wdrożenia — specyfika rynku polskiego
Na rynku polskim adopcja llms.txt jest wciąż niska — wg naszych obserwacji (PremiumAds, 2025) mniej niż 5% polskich witryn biznesowych posiada ten plik. To oznacza, że wdrożenie go teraz daje realną przewagę konkurencyjną, zanim standard się upowszechni. AI Overview po polsku jest dostępne od 2024 roku i Google-Extended aktywnie crawluje polskie domeny.
Kilka uwag specyficznych dla polskiego kontekstu:
- Opisy w llms.txt pisz po polsku — LLM obsługujące zapytania w języku polskim lepiej dopasowują polskojęzyczne opisy do zapytań użytkowników.
- Uwzględnij frazy długiego ogona charakterystyczne dla polskiego rynku (np. „agencja Google Ads Gdynia” zamiast tylko „Google Ads agency”).
- Jeśli masz wersje językowe, rozważ osobne pliki:
/llms.txt(PL) i/en/llms.txt(EN) — standard nie definiuje obsługi hreflang, ale praktyka pokazuje, że rozdzielenie wersji poprawia trafność cytowań.
Kiedy llms.txt nie wystarczy — szerszy kontekst GEO
llms.txt to jeden element układanki GEO, nie kompletna strategia. Modele językowe cytują treści na podstawie wielu sygnałów: jakości i autorytetu domeny, struktury danych (Schema.org), liczby zewnętrznych odwołań do strony oraz czytelności tekstu dla modeli (krótkie akapity, listy, tabele). Plik llms.txt zwiększa discoverability, ale nie zastąpi wartościowej treści.
W PremiumAds stosujemy autorską metodologię scoringową GRI (Generative Relevance Index, skala 0–100), która ocenia gotowość witryny do cytowania przez LLM w pięciu wymiarach: struktura techniczna, jakość treści, autorytet domeny, dane strukturalne i konfiguracja plików AI (w tym llms.txt). Jeśli chcesz wiedzieć, gdzie Twoja strona wypada w tym zestawieniu — skontaktuj się z nami, przeprowadzimy bezpłatny wstępny audyt GRI.