IPB

Witaj Gościu ( Zaloguj | Rejestruj )

 
Reply to this topicStart new topic
> robots.txt
Ocena 1 V
fanatyk
post 11.1.2007 - 12:47
Post #1


Administrator
********

Grupa: Administrator
Postów: 1 560

Nr: 1



robots.txt @ PolskiBlogger.pl

co to jest?

Plik robots.txt służy do wskazania dla robotów sieciowych jakie sekcje strony powinny być indeksowane. Możesz zapobiec indeksowaniu całej strony lub ustawić indywidualne ograniczenia dla konkretnych robotów.

Sam plik jest zwykłym plikiem tekstowym, który możesz utworzyć w zwykłym Notatniku. Powinien się on znajdować w katalogu głównym, w którym znajduje się strona.

Po co mi robots.txt

Wszystkie wyszukiwarki (a przynajmniej te najważniejsze) szukają pliku robots.txt kiedy tylko ich boty odwiedzą twoją stronę. W związku z tym nawet jeśli nie chcesz zastrzegać dostępu do części strony
wyszukiwarkom to i tak warto stworzyć sobie taki plik ponieważ jest on swoistym zaproszeniem dla botów wyszukiwarek.

Dlaczego miałbyś bronić dostępu do strony wyszukiwarkom? Jest sporo takich sytuacji kiedy strona nie powinna być indeksowana (z takich czy innych przyczyn).
  1. Strona lub jej część (podstrony) jest jeszcze w budowie i nie chcesz, aby nieukończona praca ukazywała się w wynikach wyszukiwania.
  2. Na stronie zawarte są informacje, które są przewidziane tylko dla określonej grupy osób i nie chcesz aby pokazywały się w wynikach wyszukiwania.
  3. Struktura strony na serwerze najczęściej zawiera foldery, których nie ma sensu indeksować. Przykładowo jaki jest sens indeksowania cgi-bin lub folderu zawierającego strony błędów?
  4. Możesz też wyeliminować w ten sposób spam-boty lub boty tych wyszukiwarek, w których nie chcesz aby Twoja strona się pojawiała.
Sam fakt, że boty wyszukiwarek szukają tego pliku jest wystarczającym powodem aby go umieścić na serwerze. Jeśli w twoich statystykach pojawia się sekcja *files not found*, to zapewne pająki wyszukiwarek nie mogły znaleźć pliku robots.txt na twojej stronie.

Jak zrobić plik?

Utworzenie takiego pliku jest dziecinnie proste. Wystarczy dowolny edytor tekstowy. Najprostszy plik zawiera 2 linijki:

KOD
User-agent: [nazwa bota]
Disallow: [nazwa pliku lub folderu do którego bronimy dostępu]


Można te instrukcje powtarzać aby wypisać wszystkie pliki (katalogi) do których chcesz zabronić dostępu i wyliczyć wszystkie boty, których zakazy dotyczą.
Przykłady

1. Wyłączenie konkretnej wyszukiwarki

Powiedzmy, że masz plik: privatefile.htm w katalogu private który chcemy ochronić przed oczyma Googli. Wiemy, że pajączek, który Google wysyła jako swoją sondę nazywa się Googlebot. Aby to zrobić musisz dodać ten kod do swojego pliku robots.txt:

KOD
User-agent: Googlebot
Disallow: /private/privatefile.htm


2. Wykluczenie sekcji strony ze wszystkich wyszukiwarek

Właśnie tworzysz nowy dział na swojej stronie. Będzie on się mieścił w folderze newsection i nie chcesz aby pająki wyszukiwarek indeksowały stornę przed ukończeniem pracy. Aby wykluczyć wszystkie boty wyszukiwarek używamy gwiazdki * w nastpujący sposób:

KOD
User-agent: *
Disallow: /newsection/


3. Pozwolenie wszystkim wyszukiwarkom na indeksowanie wszystkich stron

Tak jak przed chwilą użyliśmy symbolu gwiazdki, tak teraz użyjemy go w sposób analogiczny aby nie blokować pająkom żadnych stron ani katalogów.

KOD
User-agent: *
Disallow:


4. Zablokowanie dla wszystkich botów całej zawartości strony

Uważaj - różnica między poniższym zapisem - blokującym wszystko dla wszystkich - od powyższego, który zezwala na indeksowanie calej zawartości wszystkim botom.

KOD
User-agent: *
Disallow: /


Więcej o robots.txt

Aby skonstruować bardziej skomplikowane reguły indeksowania będziesz potrzebował troszkę więcej wysiłku. Pamiętaj aby dokładnie sprawdzić to co zapiszesz w pliku robots.txt aby uniknąć omyłkowego odcięcia botów od treści, któe chcesz mieć zaindeksowane.

Rozpatrzmy bardziej skomplikowane senariusze.

Powiedzmy, że chcesz aby indeksowane były wszystkie strony poza wymienionymi wyjątkami:
1. Nie chcemy indeksować plików z folderu cgi-bin, chcemy też wykluczyć następujące foldery: myfiles, secrets, porn, admin.
2. Nie chcesz aby stronę indeksowała jedna, wybrana wyszukiwarka - dajmy na to: Alta Vista.
3. Nie chcesz aby obrazki z Twojej strony były pokazywane w wynikach wyszukiwania grafiki Googli.
4. Chcesz prezentować inną zawartość dla wyszukiwarki Lycos a inną dla Google.

UWAGA!
Używanie tzw. *doorway pages* - czyli specjalnych stron zoptymalizowanych pod wyszukiwarki, zawierających inną treść niż prezentowana internautom - może być powodem wykluczenia witryny z wyświetlania w wynikach poszczególnych wyszukiwarek. Jest to traktowane jako technika spamerska i nie jest akceptowana przez serwisy takie jak google, MSN etc.


Wykonanie takiego pliku podzielmy sobie na kolejne kroki.

Zacznijmy od zastrzeżenie z pkt.1. - zastrzeżenie wybranych folderów

KOD
User-agent: *
Disallow: /cgi-bin/
Disallow: /myfiles/
Disallow: /secrets/
Disallow: /porn/
Disallow: /admin/


Teraz “zbanujemy” AltaVistę. Jej robot nazywa się Scooter.

KOD
User-agent: Scooter
Disallow: /


Ten zapis możemy potraktować jako poprawkę do tego z pkt. 1. Zapisanie pliku zawierającego instrukcje z tych 2 punktów będzie oznaczać , że: wszystkie boty mogą indeksować całą zawartość strony z wyjątkiem wymienionych w pkt. 1 folderów poza Scooterem, który nie może indeksować zawartości strony.

Teraz zadbamy o to by Google trzymało się z dala od naszych obrazków. Obrazki dla googli indeksuje Googlebot-Image. Oto co możemy zrobić:

KOD
User-agent: Googlebot-Image
Disallow: /images/


To rozwiązanie zadzaiła jeśli trzymasz wszystkie opbrazki w jednym folderze images.

KOD
User-agent: Googlebot-Image
Disallow: /


A to zapobiegnie wizytom Googlebot-Image na całej stronie.

Na koniec przedstawmy odpowiednim botom odpowiednie strony

Zakładam, że mamy 2 strony: index1.html i index2.html, które są zrobione odpowiednio pod Google i Lycos. Więc musimy ukryć index1.html przed Lycos (pająk nazywa się T-Rex) a index2.html przed Google:

KOD
User-agent: T-Rex
Disallow: /index1.html

User-agent: Googlebot
Disallow: /index2.html[code]

Tak więc nasz plik powinien wyglądać następująco:

[code]# warunek 2
User-agent: Scooter
Disallow: /
# warunek 3
User-agent: Googlebot-Image
Disallow: /
# warunek 4
User-agent: T-Rex
Disallow: /index1.html
User-agent: Googlebot
Disallow: /index2.html
#warunek 1
User-agent: *
Disallow: /cgi-bin/
Disallow: /myfiles/
Disallow: /secrets/
Disallow: /porn/
Disallow: /admin/


Jak widać symbol # służy do oddawania komentarzy w pliku.

Ponieważ według wskazań validatora plików robots.txt sekcja, którą pisaliśmy jako pierwszą powinna znajdować się na końcu pliku.

Orginaly written by Katherine Nolan on outfront.net


--------------------
O blogach i blogowaniu, WordPRess, SEO i startupach

Użytkowniku - zamykaj tematy, w których uzyskałeś już pomoc!
Go to the top of the page
 
+Quote Post
gość_fisty_*
post 13.1.2007 - 21:06
Post #2





Guests






http://piotr.mikolajski.net/2007/01/kradni...sie-wylansujesz
http://byte.livenet.pl/?p=814
http://ja.rafi.pl/2007/01/13/fanatyczny-zlodziej-tekstow/
http://paweltkaczyk.midea.pl/611/
Fanatyk jak to skomentujesz?
Go to the top of the page
 
+Quote Post
Slavo
post 14.1.2007 - 11:51
Post #3


aktywność:
*

Grupa: Bloger
Postów: 7

Nr: 1 540



Czy to wymaga komentarza?


--------------------
Go to the top of the page
 
+Quote Post
fanatyk
post 14.1.2007 - 13:57
Post #4


Administrator
********

Grupa: Administrator
Postów: 1 560

Nr: 1



To może krótko:
JA: Would You mind if I translate it and publish in polish web?
Autorka: I have no problem with you using it this way


--------------------
O blogach i blogowaniu, WordPRess, SEO i startupach

Użytkowniku - zamykaj tematy, w których uzyskałeś już pomoc!
Go to the top of the page
 
+Quote Post
PawelTkaczyk
post 14.1.2007 - 20:20
Post #5


aktywność:
*

Grupa: Bloger
Postów: 1

Nr: 224



Och, dziecinne... Pytanie powinno brzmieć:
"Would you mind if i translated your text and published on the internet without giving your name or any link to the original, so everybody thinks it's my work?"

Podaj chociaż źródło i nazwisko autorki...
Go to the top of the page
 
+Quote Post

Reply to this topicStart new topic
1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



Wersja Lo-Fi Aktualny czas: 2 09 10 - 15:47
WebFan | Forum Komputerowe | Spotkania blogerów