robots.txt
Сталкивались ли Вы когда-нибудь с такой проблемой? Заходите в статистику, например Яндекс, а там такая информация:
- Загружено роботом 205
- Исключено роботом 127
И сразу возникает вопрос, откуда Яндекс наидексировал столько страниц?? если я написал пока что 30 статей..
Все очень просто, робот-хренобот Яши нашел страницы, которые совершенно не нужно было индексировать. Это скрипиты, страницы с не поддерживаемым стандартом данных — RSS, Atom, Trackbak, возможно старые страницы, которые изменились после оптимизации под поисковый запрос и т.д. В общем, половина из того, что нашел бот — мусор. Так как же подсказать роботу, что нужно индексировать, а что — нет? Ответ таится в файле robots.txt.
- Файл robots.txt — это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться. Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу
Как создать файл robots.txt
Создать файл robots.txt можно с помощью обычного текстового редактора, например «блокнот». После внесенных изменений, файл можно закачать в корневую директорию.
Структура файла robots.txt
Стрктура robots.txt следующая: сначала указывается название робота с помощью строки user-agent: , а строчкой ниже инструкции для этого бота. Между этими директивами не должно быть пустых строк, это означает конец блока.
* — любой набор символов;
$ — конец строки;
# — комментарий;
Disallow - не идексировать страницу, если необходимо запретить несколько страниц, их надо перечислить в новых строках;
- Disallow: — разрешение индексировать всё содержимое сайта,
Disallow: / — запрет на индексацию всего сайта.
Disallow: /name – запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии.
Disallow: /name/ — запрет на индексацию папки name.
Disallow: /*.gif$ — запрет на индексацию всех файлов, имеющих расширение .gif.
Disallow: /name.php – запрет на индексацию файла name.php.
Disallow: /name.php?action=print – запрет индексации переменной, например, страниц для печати.
Allow — официально не принят, но поддерживается Гуглом и Яндексом, индексация страницы;
Host — определение основного зеркала сайта, поддерживается Яндексом, данный параметр говорит роботу, о том, что при поисковом запросе, необходимо выводит сайт именно с тем именем, которое указано в данной директиве. формат: host: ceoec.ru
Crawl-delay: n, где n — величина задержки в секундах перед индексированием страницы, необходимо для медленных серверов;
Названия ботов ПС для robots.txt
Yandex — user-agent: Yandex;
Google — user-agent: Googlebot;
Rambler — user-agent: StackRambler;
Yahoo! — user-agent: Yahoo! Slurp;
MSN — User-agent: MSNbot;
Все боты — User-agent: *
Примеры файла robots.txt
Запрет доступа всех роботов ко всему сайту:
- User-agent: *
- Disallow: /
Запрет доступа робота Google к каталогу links и странице register.php:
- # запрет бота к линкс и register.php
- User-agent: googlebot
- Disallow: /links/
- Disallow: /register.php
Файл robots.txt для WordPress
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: /xmlrpc.php
Allow: /wp-content/uploads
Файл robots.txt для Joomla
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /editor/ Disallow: /help/ Disallow: /images/ Disallow: /includes/ Disallow: /language/ Disallow: /mambots/ Disallow: /media/ Disallow: /modules/ Disallow: /templates/ Disallow: /installation/
Проверить файл robots.txt на работоспособность
http://webmaster.yandex.ru/robots.xml?host=www.имя_сайта.ru
Вот основные моменты, которые Вам необходимо знать при составлении файла robots.txt. Составляйте robots.txt правильно и это избавит Вас от лишних проблем!!!
замечательно что про это написали и понятно, а то я из новичков во всем этом и тыкаешся по всему нету как баран а толком не кто не чего объяснить не может. все строят из себя таких крутых веб мастеров аш дальше некуда а сами знают максимум на шаг вперед, толи дело на вашем блоге все ясно и понятно. о.к.