tvorba www stránek
tvorba internetových obchodů
programování a vývoj internetových řešení
Kontaktní informace
+420 604 675 156

SEO - Jak funguje a k čemu slouží soubor ROBOTS.TXT

Vyhledávače jako Google nebo Jyxo, používají pro prohledávání a následné zaindexování stránek vyhledávací roboty. Soubor ROBOTS.TXT se používá pro deklarování těch částí webu, které se nemají indexovat vyhledávacím robotem. Strukturu souboru ROBOTS.TXT si popíšeme v tomto článku.

Soubor ROBOTS.TXT je obyčejný textový dokument, umístěný v kořenovém adresáři domény, který musí mít následující zápis:

User-agent: *
Disallow: /cgi-bin/

Položka User-agent definuje název robota a položka Disallow definuje část webu, která má být robotem ignorována.

Zápis může vypadat i takto:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /osobni/

Výše uvedený zápis tedy říká všem robotům (*), aby neindexovali adresáře /cgi-bin /images a /osobni.

Zápis ale může vypadat i následovně

User-agent: Bar
Disallow: /cg
Disallow: /im
Disallow: /os

User-agent: Foo
Disallow: /

Tento zápis říká, že robot "Bar" nesmí indexovat soubory, nebo adresáře začínající písmeny cg,im nebo os. Zápis je ekvivalentní předchozímu. Robot tedy nebude indexovat adresáře /cgi-bin, /images nebo /osobni. Sousně deklaruje, že robot "Foo" nemá indexovat stránky vůbec. Odřádkování mezi oběma deklaracemi je povinné.

Je důležité dát si pozor, neboť do souboru robots.txt má přístup v podstatě každý, kdo zadá adresu www.mojedomena.cz/robots.txt. Soubor obsahuje položky, které robot ignoruje, ale člověk nemusí! Takto se může stát, že se kdokoli může podívat do adresáře vámi deklarovaného v souboru robots.txt. Proto pamatujte na důskedné zabezpečení případných administračních skriptů! V tomto případě je na místě říci následující - soubor ROBOTS.TXT slouží pouze pro deklaraci adresářů, které nemají být indexovány robotem vyhledávače, nikoli však pro ukrytí adresářů či souborů před zobrazením. Obecná poučka říká, že CO NECHCI ZVEŘEJŇOVAT - NEDÁVÁM NA INTERNET, nebo to alespoň řádně zabezpečím přístupovými právy.

Soubor ROBOTS.TXT není jediná možnost jak deklarovat části webu, které nemají být indexovány. Každá stránka totiž může obsahovat meta tag..

..který určuje zda-li má být stránka vyhledávačem indexována a procházena znovu. V položce content, můžou být následující hodnoty

 

  • index - indexovat stránku
  • noindex - neindexovat stránku
  • follow - vracet se na stránku
  • nofollow - nechodit zpět na stránku

Další zdroje:
Yuhůůova stránka o vyhledávačích
Robotstxt.org
Robots.txt tutorial

Komentáře

Komentovat tento článek