Indeksowanie w Google — jak sprawdzić i przyspieszyć widoczność strony
Masz piękną stronę firmową, ale nie pojawia się w Google? Piszesz artykuły, ale nikt ich nie znajduje? Problem prawie na pewno leży w indeksowaniu. Google musi najpierw ODKRYĆ Twoją stronę, potem ją ZINDEKSOWAĆ (zapisać w swojej bazie), a dopiero potem może ją WYŚWIETLIĆ w wynikach wyszukiwania. Na każdym z tych etapów może coś pójść nie tak. W tym artykule pokażemy, jak sprawdzić stan indeksowania, zdiagnozować problemy i przyspieszyć pojawienie się strony w Google.
Jak działa indeksowanie Google?
Zanim strona pojawi się w wynikach wyszukiwania, przechodzi przez trzy etapy:
Etap 1: Crawlowanie (odkrywanie)
Googlebot — robot Google — „pełza” (crawluje) po internecie, podążając za linkami. Odkrywa nowe strony na dwa sposoby:
- Podążanie za linkami — jeśli inna strona linkuje do Twojej, Googlebot ją odkryje.
- Sitemap XML — jeśli zgłosiłeś mapę strony do Search Console, Google wie o wszystkich Twoich stronach.
Googlebot pobiera HTML strony, CSS, JavaScript i obrazy. Renderuje stronę jak przeglądarka (od 2019 roku Google renderuje JavaScript), żeby zobaczyć finalną treść.
Etap 2: Indeksowanie (zapisanie)
Po pobraniu i zrenderowaniu strony Google analizuje treść — tekst, obrazy, tagi meta, structured data. Decyduje, czy strona jest warta dodania do indeksu. Jeśli tak — zapisuje ją w swojej bazie danych (indeksie) razem z metadanymi.
Uwaga: Google NIE indeksuje wszystkiego. Strony niskiej jakości, duplikaty, thin content, strony z noindex — mogą być odkryte (crawled), ale nie zaindeksowane.
Etap 3: Serwowanie (wyświetlanie)
Gdy użytkownik wpisuje zapytanie w Google, algorytm przeszukuje indeks i wyświetla najbardziej trafne wyniki. Kolejność zależy od setek czynników rankingowych — ale strona musi być ZAINDEKSOWANA, żeby w ogóle brać udział w tej rywalizacji.
Jak sprawdzić, czy strona jest zaindeksowana?
Metoda 1: Operator site: w Google
Najprostszy sposób — wpisz w Google:
site:twojastrona.pl
Google wyświetli wszystkie zaindeksowane strony z Twojej domeny. Możesz też sprawdzić konkretny URL:
site:twojastrona.pl/konkretna-strona/
Jeśli strona się nie pojawia — nie jest zaindeksowana. Ale uwaga: operator site: nie jest w 100% dokładny. Dla pełnych danych użyj Search Console.
Metoda 2: Google Search Console — narzędzie „Sprawdź URL”
Najdokładniejsze narzędzie. W Google Search Console (search.google.com/search-console):
- Wklej URL strony w pasek na górze.
- Google sprawdzi status strony w indeksie.
- Zobaczysz informacje: czy strona jest zaindeksowana, kiedy była ostatnio crawlowana, czy ma problemy z indeksowaniem.
Możliwe statusy:
- „Adres URL jest w Google” — strona jest zaindeksowana. Wszystko OK.
- „Adres URL jest w Google, ale ma problemy” — zaindeksowana, ale z ostrzeżeniami (np. zablokowane zasoby).
- „Adres URL nie jest w Google” — nie zaindeksowana. Powód będzie wskazany.
Metoda 3: Google Search Console — raport „Strony”
Raport „Strony” (dawniej „Pokrycie indeksu”) daje pełny obraz indeksowania całej witryny:
- Prawidłowe — strony zaindeksowane bez problemów.
- Prawidłowe z ostrzeżeniami — zaindeksowane, ale warto coś poprawić.
- Wykluczone — NIE zaindeksowane. Z podaniem przyczyny — to najważniejsza sekcja.
- Błędy — problemy, które Google napotkał (404, błędy serwera, problemy z przekierowaniem).
Dlaczego strona NIE jest indeksowana? Najczęstsze przyczyny
1. Dyrektywa noindex
Meta tag <meta name="robots" content="noindex"> w sekcji <head> mówi Google: „Nie indeksuj tej strony”. To najczęstsza przyczyna braku indeksowania — i często jest ustawiona nieświadomie.
Gdzie sprawdzić:
- Kod źródłowy strony — szukaj „noindex” w sekcji <head>.
- Nagłówek HTTP X-Robots-Tag — noindex może być ustawiony w nagłówku serwera, nie w HTML. Sprawdź w Chrome DevTools → Network → nagłówki odpowiedzi.
- WordPress → Ustawienia → Czytanie — „Proś wyszukiwarki o nieindeksowanie tej witryny”. Jeśli jest zaznaczone — cała strona ma noindex.
- Yoast SEO → edycja strony — w sekcji Yoast sprawdź, czy strona nie jest ustawiona na „noindex”.
2. Blokada w robots.txt
Plik robots.txt mówi robotom wyszukiwarek, których części strony NIE powinny crawlować. Jeśli robots.txt blokuje ścieżkę, Google NIE odwiedzi tych stron (i nie zaindeksuje).
Sprawdź robots.txt pod adresem: twojastrona.pl/robots.txt
Typowe problemy:
# BŁĄD: blokuje CAŁĄ stronę!
User-agent: *
Disallow: /
# POPRAWNIE: blokuje tylko panel admina
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Uwaga: Disallow: / blokuje CAŁĄ witrynę! To jedna z najczęstszych pomyłek — programista zostawia blokadę z fazy deweloperskiej.
Testuj robots.txt w Google Search Console → Ustawienia → robots.txt — wklej URL i sprawdź, czy jest zablokowany.
3. Tag canonical wskazuje na inny URL
Tag <link rel="canonical" href="..."> mówi Google, która wersja strony jest „kanoniczna” (preferowana). Jeśli canonical strony A wskazuje na stronę B, Google zaindeksuje stronę B, a stronę A potraktuje jako duplikat.
Problemy z canonical:
- Canonical wskazuje na siebie — to prawidłowe, każda strona powinna mieć self-referencing canonical.
- Canonical wskazuje na inny URL — Google zaindeksuje wskazany URL, nie bieżący.
- Brak canonical — Google sam wybierze kanoniczną wersję (i może wybrać źle).
- Canonical z http:// zamiast https:// — sprzeczność z SSL.
4. Strona jest nowa i Google jeszcze jej nie odkrył
Nowe strony nie pojawiają się w Google natychmiast. Proces trwa od kilku godzin do kilku tygodni — zależy od autorytetu domeny, linków i częstotliwości crawlowania. Możesz przyspieszyć — o tym za chwilę.
5. Thin content (zbyt mało treści)
Google może odkryć stronę, ale zdecydować, że nie warto jej indeksować — bo treść jest zbyt skąpa, nieoryginalna lub niskiej jakości. W Search Console zobaczysz status „Odkryta — obecnie niezindeksowana” lub „Przeskanowana — obecnie niezindeksowana”.
6. Duplikat treści
Jeśli Google znajdzie dwie strony z identyczną lub bardzo podobną treścią, zaindeksuje tylko jedną — tę, którą uzna za kanoniczną. Drugą oznaczy jako „Duplikat, Google wybrał inny adres kanonicznym niż użytkownik”.
7. Problemy techniczne
- Błąd serwera (5xx) — serwer nie odpowiada. Googlebot nie może pobrać strony.
- Zbyt wolna odpowiedź — Googlebot ma timeout. Jeśli serwer odpowiada zbyt wolno, crawl jest przerywany.
- Zablokowane zasoby — robots.txt blokuje CSS/JS, Google nie może zrenderować strony.
- Błędy JavaScript — jeśli treść generowana jest przez JS i JS ma błędy, Google widzi pustą stronę.
Jak przyspieszyć indeksowanie?
1. Zgłoś URL w Google Search Console
Najszybszy sposób. W narzędziu „Sprawdź URL” (Inspect URL):
- Wklej URL nowej strony.
- Kliknij „Poproś o indeksowanie”.
- Google doda URL do kolejki priorytetowej crawlowania.
Uwaga: to nie gwarantuje indeksowania — Google nadal oceni, czy strona zasługuje na indeks. Ale przyspiesza odkrycie z tygodni do godzin/dni.
Limit: 10-20 żądań dziennie. Nie nadużywaj — zgłaszaj tylko nowe lub istotnie zmienione strony.
2. Zaktualizuj sitemap XML
Upewnij się, że nowa strona jest w sitemap.xml z aktualną datą <lastmod>. Na WordPressie wtyczki SEO robią to automatycznie. Google regularnie sprawdza sitemap — nowe URL-e z sitemapy są crawlowane priorytetowo.
3. Linkuj z już zaindeksowanych stron
Googlebot podąża za linkami. Jeśli dodasz link do nowej strony z już zaindeksowanej strony (np. ze strony głównej, z menu nawigacji, z powiązanego artykułu), Googlebot odkryje nową stronę przy następnym crawlu.
Im wyżej w hierarchii strony link — tym szybciej zostanie odkryty. Link ze strony głównej jest crawlowany częściej niż link z głębokiej podstrony.
4. Buduj linki zewnętrzne
Linki z innych witryn nie tylko budują autorytet — pomagają Google odkrywać Twoje strony. Jeśli zaufana witryna linkuje do Twojej nowej strony, Googlebot odkryje ją przy crawlowaniu tej witryny.
5. Publikuj na social media
Udostępnienie URL-a na Twitterze (X), Facebooku, LinkedIn może przyspieszyć odkrycie — te platformy są crawlowane bardzo często. Google „widzi” linki z social media (nawet jako nofollow) i może szybciej odwiedzić Twoją stronę.
6. Ping URL (Google Indexing API)
Dla stron z ofertami pracy lub eventami Google oferuje Indexing API — możesz programatycznie zgłaszać nowe URL-e do natychmiastowego crawlowania. Oficjalnie przeznaczony tylko dla JobPosting i BroadcastEvent, ale w praktyce jest używany szerzej (z różnym skutkiem).
Crawl budget — co to jest i czy musisz się tym martwić?
Crawl budget to ilość zasobów (czasu, requestów), które Google przeznacza na crawlowanie Twojej witryny. Google nie crawluje każdej strony przy każdym odwiedzeniu — ma ograniczony budżet.
Dwa składniki crawl budget:
- Crawl rate limit — maksymalna częstotliwość crawlowania, żeby nie przeciążyć serwera. Google automatycznie dostosowuje — jeśli serwer odpowiada wolno, zmniejsza tempo.
- Crawl demand — ile Google CHCE crawlować. Zależy od popularności strony, częstotliwości zmian i historii crawlowania.
Kiedy crawl budget jest problemem?
Dla większości stron firmowych (5-100 stron) — nigdy. Google ma wystarczający budżet, żeby crawlować małe witryny w całości. Crawl budget staje się istotny przy:
- Dużych witrynach (powyżej 10 000 stron).
- Sklepach e-commerce z tysiącami produktów.
- Portalach z dynamicznym contentem generowanym przez parametry URL.
Jak nie marnować crawl budget?
- Blokuj w robots.txt strony, których Google nie musi crawlować — panel admina, strony wyszukiwania, strony tagów, strony z parametrami filtrowania.
- Napraw błędy 404 — Googlebot marnuje budżet na crawlowanie stron, które nie istnieją.
- Usuwaj łańcuchy przekierowań — każde przekierowanie w łańcuchu zużywa dodatkowy request.
- Ogranicz parametry URL — /produkty/?kolor=czerwony&rozmiar=XL to dla Google inna strona niż /produkty/?rozmiar=XL&kolor=czerwony. Setki kombinacji filtrów to tysiące „fałszywych” stron.
- Szybki serwer — im szybciej serwer odpowiada, tym więcej stron Google może crawlować w tym samym czasie.
robots.txt — pełny przewodnik
Plik robots.txt to pierwszy plik, który czyta Googlebot wchodząc na Twoją witrynę. Zawiera instrukcje, które ścieżki mogą, a które nie mogą być crawlowane.
Prawidłowy robots.txt dla WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-json/
Disallow: /?s=
Disallow: /search/
Disallow: /tag/
Disallow: /author/
Sitemap: https://twojastrona.pl/sitemap_index.xml
Ważne zasady robots.txt
- robots.txt NIE chroni treści — blokuje crawlowanie, ale nie ukrywa strony. Jeśli inna strona linkuje do zablokowanej strony, Google może ją zaindeksować (bez treści, ale z URL-em). Do ochrony używaj noindex lub hasła.
- robots.txt ma pierwszeństwo — jeśli robots.txt blokuje URL, Google NIE przeczyta meta noindex na tej stronie (bo jej nie odwiedzi). Nie blokuj stron z noindex w robots.txt — to sprzeczność.
- Testuj zmiany — błąd w robots.txt może zablokować CAŁĄ witrynę. Testuj w Search Console przed wdrożeniem.
Tag canonical — kontrola nad tym, co Google indeksuje
Canonical to jeden z najważniejszych tagów SEO — mówi Google: „Jeśli istnieją duplikaty tej strony, potraktuj TĘ wersję jako kanoniczną”. Kluczowe scenariusze:
Self-referencing canonical
Każda strona powinna mieć canonical wskazujący na samą siebie:
<link rel="canonical" href="https://twojastrona.pl/uslugi/">
To zapobiega problemom z duplikacją spowodowaną parametrami URL (np. ?utm_source=facebook).
Konsolidacja duplikatów
Masz stronę dostępną pod kilkoma URL-ami?
- twojastrona.pl/strona/
- twojastrona.pl/strona/?ref=123
- twojastrona.pl/Strona/
Wszystkie powinny mieć canonical wskazujący na jeden, preferowany adres.
Canonical a przekierowanie 301
Canonical to „wskazówka” (hint) dla Google — Google MOŻE ją zignorować. Przekierowanie 301 to „rozkaz” (directive) — Google MUSI go wykonać. Jeśli chcesz mieć pewność — użyj 301. Canonical stosuj tam, gdzie 301 nie jest możliwe (np. parametry URL, wersje drukowania).
Raport pokrycia indeksu — jak go czytać
Raport „Strony” w Google Search Console to Twoje centrum dowodzenia indeksowaniem. Oto najczęstsze statusy „Wykluczone” i co z nimi zrobić:
„Odkryta — obecnie niezindeksowana”
Google ODKRYŁ stronę (z linku lub sitemapy), ale jeszcze jej NIE ODWIEDZIŁ. Zwykle oznacza, że Google jest w kolejce — odwiedzi stronę gdy będzie miał czas. Jeśli status utrzymuje się tygodniami — strona może mieć niski priorytet crawlowania. Rozwiązanie: linkuj z ważniejszych stron, użyj „Poproś o indeksowanie”.
„Przeskanowana — obecnie niezindeksowana”
Google ODWIEDZIŁ stronę, ale zdecydował, że NIE WARTO jej indeksować. Typowa przyczyna: thin content, duplikat, niska jakość. Rozwiązanie: popraw treść — dodaj wartościowy, unikalny content.
„Wykluczona przez tag noindex”
Strona ma meta noindex — Google celowo jej nie indeksuje. Jeśli to celowe (np. strona koszyka, strona logowania) — OK. Jeśli nie — usuń noindex.
„Duplikat, Google wybrał inny adres kanoniczny”
Google znalazł duplikat treści i wybrał inną stronę jako kanoniczną. Sprawdź canonical — czy wskazuje tam, gdzie chcesz? Czy treść faktycznie jest unikalna?
„Zablokowana przez robots.txt”
Robots.txt blokuje crawlowanie tej strony. Jeśli chcesz ją indeksować — zmień robots.txt.
„Błąd serwera (5xx)”
Serwer zwrócił błąd. Sprawdź logi serwera — może to jednorazowy problem, może systemowy.
„Nie znaleziono (404)”
Strona nie istnieje. Jeśli to stara strona, która została usunięta — ustaw 301 na najbardziej zbliżoną istniejącą stronę. Jeśli nigdy nie istniała — skąd Google ma ten URL? Sprawdź linki zewnętrzne i sitemap.
Ile trwa indeksowanie nowej strony?
Nie ma jednej odpowiedzi — zależy od wielu czynników:
| Scenariusz | Typowy czas |
|---|---|
| Nowa strona na istniejącej, autorytatywnej domenie | Godziny — 2 dni |
| Nowy artykuł na blogu z regularnym publishingiem | 1-3 dni |
| Nowa strona na nowej domenie (bez linków) | 1-4 tygodnie |
| Strona z thin content / niskim crawl demand | Tygodnie — miesiące |
| Zmiana treści na istniejącej zaindeksowanej stronie | Godziny — tydzień |
Czynniki przyspieszające: wysoki autorytet domeny, częste crawlowanie (bo strona się często zmienia), dużo linków wewnętrznych i zewnętrznych, aktywny sitemap, ręczne zgłoszenie w Search Console.
Problemy z indeksowaniem — diagnostyka krok po kroku
Jeśli Twoja strona nie jest indeksowana, przejdź przez tę checklistę:
- Sprawdź robots.txt — czy strona nie jest zablokowana? (twojastrona.pl/robots.txt)
- Sprawdź meta robots — czy nie ma noindex? (Ctrl+U → szukaj „noindex”)
- Sprawdź canonical — czy wskazuje na prawidłowy URL?
- Sprawdź Search Console — narzędzie „Sprawdź URL” pokaże dokładny status i przyczynę.
- Sprawdź sitemap — czy strona jest w sitemap.xml?
- Sprawdź linki wewnętrzne — czy jakakolwiek zaindeksowana strona linkuje do tej strony?
- Sprawdź treść — czy strona ma wartościową, unikalną treść? Thin content = brak indeksowania.
- Sprawdź szybkość serwera — czy serwer odpowiada prawidłowo (kod 200)? Czy nie jest zbyt wolny?
- Sprawdź JavaScript — czy treść jest widoczna w kodzie źródłowym, czy generowana dynamicznie przez JS? Jeśli JS — czy Google może ją zrenderować?
- Poproś o indeksowanie — jeśli wszystko wygląda OK, użyj funkcji w Search Console.
Narzędzia do monitorowania indeksowania
- Google Search Console — absolutna podstawa. Raport „Strony”, narzędzie „Sprawdź URL”, raport sitemapów.
- Screaming Frog — crawluj własną stronę jak Googlebot. Znajdziesz noindex, canonical, 404, duplikaty, orphan pages.
- Ahrefs / SEMrush — audyt SEO z wykrywaniem problemów z indeksowaniem.
- Google’s „cache:” operator — wpisz
cache:twojastrona.pl/strona/w Google, żeby zobaczyć cached version (kiedy Google ostatnio odwiedził stronę).
Podsumowanie — indeksowanie to fundament widoczności
Bez indeksowania nie ma pozycji w Google. Możesz mieć najlepszą treść na świecie — jeśli Google jej nie zaindeksuje, nikt jej nie znajdzie. Dlatego monitorowanie indeksowania powinno być rutynową częścią zarządzania stroną.
Kluczowe działania:
- Skonfiguruj Google Search Console — i sprawdzaj raporty co tydzień.
- Miej aktualny sitemap XML — zgłoszony do Search Console i wskazany w robots.txt.
- Nie blokuj ważnych stron — sprawdź robots.txt i meta robots.
- Używaj canonical poprawnie — self-referencing na każdej stronie.
- Twórz wartościowe treści — thin content nie zostanie zaindeksowany.
- Linkuj wewnętrznie — każda ważna strona powinna być linkowana z menu, sidebara lub treści.
- Reaguj na błędy — 404, 5xx, noindex na ważnych stronach — naprawiaj od razu.
Indeksowanie to nie jednorazowe zadanie — to ciągły proces. Google codziennie crawluje miliardy stron. Upewnij się, że Twoja jest jedną z nich.
Potrzebujesz pomocy z marketingiem?
Umów się na darmową konsultację — przeanalizujemy Twoją sytuację i zaproponujemy konkretne działania.