( Zaloguj | Zarejestruj )
![]() ![]() |
11.1.2007 - 12:47
Post
#1
|
|
|
Administrator ![]() ![]() ![]() ![]() ![]() ![]() ![]() Grupa: Administrator Postów: 1 579 Nr: 1 |
robots.txt @ PolskiBlogger.pl
co to jest? Plik robots.txt służy do wskazania dla robotów sieciowych jakie sekcje strony powinny być indeksowane. Możesz zapobiec indeksowaniu całej strony lub ustawić indywidualne ograniczenia dla konkretnych robotów. Sam plik jest zwykłym plikiem tekstowym, który możesz utworzyć w zwykłym Notatniku. Powinien się on znajdować w katalogu głównym, w którym znajduje się strona. Po co mi robots.txt Wszystkie wyszukiwarki (a przynajmniej te najważniejsze) szukają pliku robots.txt kiedy tylko ich boty odwiedzą twoją stronę. W związku z tym nawet jeśli nie chcesz zastrzegać dostępu do części strony wyszukiwarkom to i tak warto stworzyć sobie taki plik ponieważ jest on swoistym zaproszeniem dla botów wyszukiwarek. Dlaczego miałbyś bronić dostępu do strony wyszukiwarkom? Jest sporo takich sytuacji kiedy strona nie powinna być indeksowana (z takich czy innych przyczyn).
Jak zrobić plik? Utworzenie takiego pliku jest dziecinnie proste. Wystarczy dowolny edytor tekstowy. Najprostszy plik zawiera 2 linijki: KOD User-agent: [nazwa bota] Disallow: [nazwa pliku lub folderu do którego bronimy dostępu] Można te instrukcje powtarzać aby wypisać wszystkie pliki (katalogi) do których chcesz zabronić dostępu i wyliczyć wszystkie boty, których zakazy dotyczą. Przykłady 1. Wyłączenie konkretnej wyszukiwarki Powiedzmy, że masz plik: privatefile.htm w katalogu private który chcemy ochronić przed oczyma Googli. Wiemy, że pajączek, który Google wysyła jako swoją sondę nazywa się Googlebot. Aby to zrobić musisz dodać ten kod do swojego pliku robots.txt: KOD User-agent: Googlebot Disallow: /private/privatefile.htm 2. Wykluczenie sekcji strony ze wszystkich wyszukiwarek Właśnie tworzysz nowy dział na swojej stronie. Będzie on się mieścił w folderze newsection i nie chcesz aby pająki wyszukiwarek indeksowały stornę przed ukończeniem pracy. Aby wykluczyć wszystkie boty wyszukiwarek używamy gwiazdki * w nastpujący sposób: KOD User-agent: * Disallow: /newsection/ 3. Pozwolenie wszystkim wyszukiwarkom na indeksowanie wszystkich stron Tak jak przed chwilą użyliśmy symbolu gwiazdki, tak teraz użyjemy go w sposób analogiczny aby nie blokować pająkom żadnych stron ani katalogów. KOD User-agent: * Disallow: 4. Zablokowanie dla wszystkich botów całej zawartości strony Uważaj - różnica między poniższym zapisem - blokującym wszystko dla wszystkich - od powyższego, który zezwala na indeksowanie calej zawartości wszystkim botom. KOD User-agent: * Disallow: / Więcej o robots.txt Aby skonstruować bardziej skomplikowane reguły indeksowania będziesz potrzebował troszkę więcej wysiłku. Pamiętaj aby dokładnie sprawdzić to co zapiszesz w pliku robots.txt aby uniknąć omyłkowego odcięcia botów od treści, któe chcesz mieć zaindeksowane. Rozpatrzmy bardziej skomplikowane senariusze. Powiedzmy, że chcesz aby indeksowane były wszystkie strony poza wymienionymi wyjątkami: 1. Nie chcemy indeksować plików z folderu cgi-bin, chcemy też wykluczyć następujące foldery: myfiles, secrets, porn, admin. 2. Nie chcesz aby stronę indeksowała jedna, wybrana wyszukiwarka - dajmy na to: Alta Vista. 3. Nie chcesz aby obrazki z Twojej strony były pokazywane w wynikach wyszukiwania grafiki Googli. 4. Chcesz prezentować inną zawartość dla wyszukiwarki Lycos a inną dla Google. UWAGA! Używanie tzw. *doorway pages* - czyli specjalnych stron zoptymalizowanych pod wyszukiwarki, zawierających inną treść niż prezentowana internautom - może być powodem wykluczenia witryny z wyświetlania w wynikach poszczególnych wyszukiwarek. Jest to traktowane jako technika spamerska i nie jest akceptowana przez serwisy takie jak google, MSN etc. Wykonanie takiego pliku podzielmy sobie na kolejne kroki. Zacznijmy od zastrzeżenie z pkt.1. - zastrzeżenie wybranych folderów KOD User-agent: * Disallow: /cgi-bin/ Disallow: /myfiles/ Disallow: /secrets/ Disallow: /porn/ Disallow: /admin/ Teraz “zbanujemy” AltaVistę. Jej robot nazywa się Scooter. KOD User-agent: Scooter Disallow: / Ten zapis możemy potraktować jako poprawkę do tego z pkt. 1. Zapisanie pliku zawierającego instrukcje z tych 2 punktów będzie oznaczać , że: wszystkie boty mogą indeksować całą zawartość strony z wyjątkiem wymienionych w pkt. 1 folderów poza Scooterem, który nie może indeksować zawartości strony. Teraz zadbamy o to by Google trzymało się z dala od naszych obrazków. Obrazki dla googli indeksuje Googlebot-Image. Oto co możemy zrobić: KOD User-agent: Googlebot-Image Disallow: /images/ To rozwiązanie zadzaiła jeśli trzymasz wszystkie opbrazki w jednym folderze images. KOD User-agent: Googlebot-Image Disallow: / A to zapobiegnie wizytom Googlebot-Image na całej stronie. Na koniec przedstawmy odpowiednim botom odpowiednie strony Zakładam, że mamy 2 strony: index1.html i index2.html, które są zrobione odpowiednio pod Google i Lycos. Więc musimy ukryć index1.html przed Lycos (pająk nazywa się T-Rex) a index2.html przed Google: KOD User-agent: T-Rex Disallow: /index1.html User-agent: Googlebot Disallow: /index2.html[code] Tak więc nasz plik powinien wyglądać następująco: [code]# warunek 2 User-agent: Scooter Disallow: / # warunek 3 User-agent: Googlebot-Image Disallow: / # warunek 4 User-agent: T-Rex Disallow: /index1.html User-agent: Googlebot Disallow: /index2.html #warunek 1 User-agent: * Disallow: /cgi-bin/ Disallow: /myfiles/ Disallow: /secrets/ Disallow: /porn/ Disallow: /admin/ Jak widać symbol # służy do oddawania komentarzy w pliku. Ponieważ według wskazań validatora plików robots.txt sekcja, którą pisaliśmy jako pierwszą powinna znajdować się na końcu pliku. Orginaly written by Katherine Nolan on outfront.net -------------------- O blogach i blogowaniu, WordPRess, SEO i startupach
Użytkowniku - zamykaj tematy, w których uzyskałeś już pomoc! |
|
|
|
| gość_fisty_* |
13.1.2007 - 21:06
Post
#2
|
|
Guests |
|
|
|
|
14.1.2007 - 11:51
Post
#3
|
|
|
Grupa: Bloger Postów: 7 Nr: 1 540 |
Czy to wymaga komentarza?
-------------------- |
|
|
|
14.1.2007 - 13:57
Post
#4
|
|
|
Administrator ![]() ![]() ![]() ![]() ![]() ![]() ![]() Grupa: Administrator Postów: 1 579 Nr: 1 |
To może krótko:
JA: Would You mind if I translate it and publish in polish web? Autorka: I have no problem with you using it this way -------------------- O blogach i blogowaniu, WordPRess, SEO i startupach
Użytkowniku - zamykaj tematy, w których uzyskałeś już pomoc! |
|
|
|
14.1.2007 - 20:20
Post
#5
|
|
|
Grupa: Bloger Postów: 1 Nr: 224 |
Och, dziecinne... Pytanie powinno brzmieć:
"Would you mind if i translated your text and published on the internet without giving your name or any link to the original, so everybody thinks it's my work?" Podaj chociaż źródło i nazwisko autorki... |
|
|
|
![]() ![]() |
| : 4 02 12 - 03:33 |