Súbor robots.txt: Váš najdrahší single point of failure
Na weboch s chybami sa mesačne precrawluje iba 40 % dôležitých stránok. Skontrolujte, či za to nemôže váš robots.txt.

Na weboch s chybami sa mesačne precrawluje iba 40 % dôležitých stránok. Skontrolujte, či za to nemôže váš robots.txt.

V roku 2019 HubSpot prišiel o obrovské množstvo návštevnosti a tržieb kvôli jedinému textovému súboru.
Nešlo o hack ani penalizáciu. Bol to chybný robots.txt súbor, ktorý spôsobil, že 10,5 milióna stránok zmizlo z Google a ďalších vyhľadávačov.
Počas rutinnej kontroly zistili, že veľká sekcia ich webu sa stala pre vyhľadávače neviditeľnou.
Vinník? Jednoduchá chyba konfigurácie v ich robots.txt súbore.
Videl som podobné katastrofy na vlastné oči a dobrou správou je, že im dokážete predísť za pár minút, ak viete, na čo sa zamerať.
Otvorte ľubovoľný prehliadač a napíšte: vasadomena.sk/robots.txt
Uvidíte niečo, čo vyzerá ako jednoduchý zoznam inštrukcií:
User-agent: *
Allow: /
Sitemap: https://vasadomena.sk/sitemap.xml
Tento súbor funguje ako návod na použitie pre webové crawlery. Hovorí Google, Bingu a ďalším vyhľadávačom, ktoré stránky môžu prehliadať a ktoré majú preskočiť.
Stačí jeden chybný riadok a môžete zablokovať vyhľadávačom prístup k celému svojmu webu.
Strata návštevnosti je len začiatok vašich problémov.
Každý deň Google pridelí konkrétne množstvo času na crawlovanie vášho webu.
Výskum ukazuje, že neoptimalizované weby plytvajú týmto cenným zdrojom katastrofálne, pričom iba 40 % dôležitých stránok sa mesačne precrawluje.
Tu je jeden reálny prípad: malá firma skončila s 5 000-riadkovým robots.txt súborom, kvôli ktorému zostala z celého webu indexovaná iba jedna stránka.
Ich kľúčové stránky služieb a obsah generujúci tržby sa stali pre Google neviditeľnými.
Vyhľadávače sa jednoducho vzdali snahy pochopiť ich chybný robots.txt súbor.
Premrhaný crawl budget vedie k pomalšej indexácii. Pomalšia indexácia oneskoruje tržby.
Keďže viac ako 60 % návštevnosti teraz pochádza z mobilných zariadení, jeden nesprávny riadok blokujúci vaše CSS alebo JavaScript súbory môže spôsobiť, že Google si myslí, že váš web je na telefónoch nefunkčný.
Vaše pozície nebudú postupne klesať. Spadnú nárazovo.
Existuje jedno závažné bezpečnostné riziko pri robots.txt súboroch. Váš robots.txt súbor je úplne verejný. Za akúkoľvek doménu dopíšte /robots.txt a uvidíte presne, čo sa snažia skryť.
Keď zablokujete /admin/ alebo /staging/, tieto adresáre nechránite. Naopak, robíte im reklamu. Tieto dva konkrétne adresáre by až taký problém neboli, ale hackeri aktívne skenujú robots.txt súbory, aby našli zraniteľné ciele. Konkurenti ich monitorujú, aby sledovali vaše pripravované produkty.
Počas práce s klientmi som si všimol, že robots.txt vytvára unikátny organizačný problém. Ovplyvňuje marketingové aj IT tímy, ale často prepadne medzi stoličkami.
Marketingové tímy by sa oň mali zaujímať, pretože kontroluje návštevnosť z vyhľadávania a tržby. IT tímy by ho mali spravovať, pretože je to technický súbor na serveri. Výsledok? Nikto sa necíti plne zodpovedný.
Ideálne nastavenie zahŕňa marketing sledujúci obchodné výsledky, zatiaľ čo IT sa stará o technickú implementáciu. Oba tímy by mali spoločne revidovať zmeny pred ich nasadením.
Ak ste čitateľ orientovaný na biznis, pokojne preskočte na sekciu „Čo by ste mali urobiť teraz?" nižšie.
Hoci robots.txt súbor vyzerá jednoducho, naučil som sa, že jeho jednoduchosť môže byť klamlivá.
User-agent: [ktorého crawlera sa to týka]
Disallow: [stránky, ku ktorým nemá prístup]
Allow: [stránky, ku ktorým má prístup]
Sitemap: [kde nájsť vašu sitemapu]
Chyba č. 1: Totálna blokáda
Tento kód robí celý váš web neviditeľným:
User-agent: * [všetky crawlery]
Disallow: / [blokuje koreňový adresár]
Toto hovorí všetkým crawlerom a vyhľadávačom, aby sa držali ďalej od každej stránky. Váš web zmizne z výsledkov vyhľadávania v priebehu pár hodín alebo dní.
Často to vidím, keď vývojári skopírujú nastavenia zo staging alebo vývojových webov a zabudnú ho aktualizovať pred nasadením.
Chyba č. 2: Zmätok s veľkosťou písmen
Dokumentácia Google jasne uvádza, že cesty sú citlivé na veľkosť písmen. Tento kód má jemný, ale vážny problém:
# Toto blokuje /Admin/ ale NIE /admin/
Disallow: /Admin/
Ak váš web používa URL s malými písmenami, toto pravidlo neurobí nič.
Chyba č. 3: Katastrofy s wildcardmi
Tento nevinne vyzerajúci kód môže zničiť váš online obchod:
Disallow: /*? [blokuje stránky s query parametrami]
Chceli ste zablokovať duplicitné stránky. Namiesto toho ste zablokovali aj:
Vždy dôkladne otestujte wildcard vzory pred ich implementáciou.
Chyba č. 4: Blokovanie renderovacích zdrojov
Tento kód spôsobí, že Google si myslí, že váš web je nefunkčný:
Disallow: /css/
Disallow: /js/
Google nevidí vaše dizajnové súbory a predpokladá, že váš web nefunguje na mobilných zariadeniach. Keďže väčšina vyhľadávaní pochádza z telefónov, v podstate ste skryli svoj web pred väčšinou používateľov.
1. Testujte všetko pred nasadením
Nikdy neupravujte robots.txt priamo na svojom produkčnom webe. Použite Google Search Console alebo iné testovacie nástroje na overenie každej zmeny.
2. Jasne dokumentujte svoje pravidlá
Vysvetlite, prečo každé pravidlo existuje:
# Blokuje testovací obsah - odstránenie tohto pravidla odhalí testovacie stránky
User-agent: *
Disallow: /testing/
3. Pravidlá majte jednoduché a jasné
Komplexné pravidlá sa ľahko pokazia. Tento prístup je jasný aj bezpečný:
User-agent: *
Disallow: /api/
Allow: /api/public/
4. Monitorujte všetky zmeny
Nastavte monitorovacie nástroje, ktoré vás upozornia, keď sa robots.txt zmení. Každá hodina výpadku stojí peniaze. Moderné SEO nástroje dokážu posielať okamžité upozornenia pri zmenách.
Pre väčšie weby potrebujete strategicky usmerniť vyhľadávače k svojmu najhodnotnejšiemu obsahu.
# Blokuje stránky, ktoré negenerujú tržby
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?filter=
# Uprednostňuje dôležité sekcie
Allow: /products/
Allow: /category/
Allow: /blog/
# Usmerňuje crawlery ku kľúčovému obsahu
Sitemap: https://vasadomena.sk/sitemap-products.xml
Sitemap: https://vasadomena.sk/sitemap-categories.xml
Otvorte prehliadač a prejdite na: vasadomena.sk/robots.txt
Okamžite hľadajte tieto varovné signály:
Disallow: / (blokuje všetko)/css/ alebo /js/Ak nemáte prístup do Search Console, to je váš prvý problém na vyriešenie. Požiadajte svojho webového vývojára, aby ho okamžite nastavil.
Pre malé firmy:
Pre väčšie organizácie:
Základná možnosť: Nastavte týždenné alebo mesačné pripomienky v kalendári na manuálne kontroly.
Lepšia možnosť: Nakonfigurujte automatizované monitorovacie nástroje:
Najlepšia možnosť: Zahrňte overenie robots.txt do svojho kontrolného zoznamu pre nasadenie a CI/CD pipeline.
Okamžite skontrolujte svoju analytiku, či nevykazuje tieto príznaky:
Ak si všimnete ktorýkoľvek z týchto problémov, okamžite skontrolujte svoj robots.txt súbor.
Ak objavíte problémy, tu je, koho kontaktovať:
Váš robots.txt súbor predstavuje kritický kontrolný bod vašej celej online prítomnosti. Rozhoduje o tom, či vyhľadávače dokážu nájsť, pochopiť a zaradiť váš obsah. Neexistuje tu žiadna stredná cesta.
Videl som firmy stratiť milióny na tržbách kvôli jedinému nesprávne umiestnenému znaku v tomto súbore. Napriek tomu sa týmto katastrofám dá úplne predísť základnou obozretnosťou. Päťminútová mesačná kontrola, jasne definované zodpovednosti a jednoduché monitorovacie nástroje vás dokážu ochrániť pred katastrofou.

Konzultant technického SEO a optimalizácie rýchlosti stránok
Viac ako 10 rokov skúseností s webovými stránkami mi ukázalo, že technická stránka webu rozhoduje o jeho úspechu. Pomáham firmám vyťažiť maximum z ich webových stránok prostredníctvom technického SEO a optimalizácie rýchlosti.
Každé dva týždne posielam praktické tipy na zlepšenie technického SEO a výkonu webovej stránky. Žiadne teórie, iba overené postupy s preukázateľnými výsledkami.



Žiadny spam. Odhlásenie kedykoľvek jedným klikom.
Prihlásením súhlasím so Zásady ochrany osobných údajov a Podmienky používania.
Získajte bezplatné tipy z oblasti technického SEO a rýchlosti webu