Роботы
поисковых систем при входе на сайт
первым делом обращаются к файлу
robots.txt, чтобы получить инструкции к
дальнейшему действию и узнать, какие
файлы и директории запрещены к
индексированию. Поэтому веб-мастеру
крайне необходимо знать, как правильно
написать этот файл, так как ошибки в нём
могут привести к очень плачевным
последствиям. Ещё раз повторимся и
уточним, что файл robots.txt ничего не
разрешает к индексации, а только
запрещает. И ещё один нюанс. Он не является
стопроцентным указанием для поисковых
роботов. Скорее можно сказать, что он
является рекомендательным документом. Файл
robots.txt – обыкновенный файл с расширением
txt, который создают с помощью Блокнота
и располагают в корневой директории
конкретного сайта и который содержит
инструкции по индексации для поисковых
роботов. Инструкции могут быть, как
общие, так и для конкретных роботов
отдельные. А
теперь немного подробнее о файле
robots.txt. Основные
правила при создании и загрузке файла
robots.txt: • не
путать название, то есть называть файл
robots.txt, а не robot.txt и так далее. • писать название файла robots.txt обязательно
в нижнем регистре, то есть robots.txt, а не
Robots.txt и ROBOTS.TXT и так далее. • размещать файл robots.txt именно в корневой
директории сайта, а не в каком другом
месте. Также
очень важно грамотное содержание файла
robots.txt, поэтому расскажу подробнее об
этом моменте. Ошибки в содержании этого
файла могут привести к тому, что сайт
или отдельные его директории или файлы
не будут проиндексированы.
Итак,
из чего же состоит содержание файла
robots.txt? Вот примерное его содержание: User-agent:
* Disallow:
/adminka/ Disallow:
/image/ Давайте
разберём содержание этого файла. Первая
строка «User-agent: *». Звёздочка в
инструкции User-agent обозначает, что данная
инструкция относится ко всем поисковым
роботам. Если инструкция предназначена
для конкретного поискового робота, то
необходимо прописать его имя. Вторая
и третья строка запрещают индексацию
директорий adminka и image. Обратите внимание,
что каждая запрещённая к индексации
директория прописана в отдельной строке.
Совмещение их в одной строке является
грубой ошибкой. Также нельзя переносить
строки в пределах одной инструкции. Для
поискового робота Яндекса актуально
также писать директиву Host. Эта директива
указывает роботу на основное зеркало
этого сайта. В этой директиве можно
прописать адрес сайта либо с www, либо
без www. Какая разница спросите вы? Да
никакой. Можно указывать и так, и так.
Всё зависит исключительно от вашего
желания. Никаких ограничений и ущемлений
для вашего сайта не будет. Правильно
написать директиву Host нужно так: User-agent:
Yandex Disallow:
/adminka/ Host:
www.site.ru А
теперь приведу конкретные примеры
написания файла robots.txt для различных
задач. 1.
Запретить весь сайт к индексации всеми
поисковыми роботами. User-agent:
* Disallow: / 2.
Не запрещать весь сайт к индексации
всеми поисковыми роботами. User-agent:
* Disallow: 3.
Запретить весь сайт к индексации одним
поисковым роботом (например,
SeoBot). User-agent:
SeoBot Disallow:
/ 4. Не
запрещать весь сайт к индексации одному
роботу (например, SeoBot) и запретить к
индексации всем остальным поисковым
роботам. User-agent:
SeoBot Disallow: User-agent:
* Disallow: / 5.
Запретить несколько директорий к
индексации всеми поисковыми
роботами. User-agent:
* Disallow:
/directoria-1/ Disallow:
/directoria-1/ Disallow:
/hidedirectoria/ 6.
Запретить несколько файлов к индексации
всеми поисковыми роботами. User-agent:
* Disallow:
/hide.php Disallow:
/secret.html Какие
же ошибки следует не допускать в написании
содержимого файла robots.txt? Вот
основные правила написания содержимого
файла robots.txt: 1.
Писать содержимое файла нужно только
в нижнем регистре. 2.
В каждой инструкции Disallow указывать
только одну директорию или один файл. 3.
Не менять местами инструкцию Disallow и
User-agent. 4. Не
оставлять пустой строку User-agent. Если
инструкция относится ко всем поисковым
роботам, то писать звёздочку, а если к
конкретному поисковому роботу, то писать
его имя. 5. В
директиве Host (для Яндекса) адрес писать
нужно без протокола http:// и без закрывающего
слеша /. 6. Не
нужно использовать символы подстановки
в инструкции Disallow в виде звёздочки и
прочих символов. 7.
Стараться не писать комментарии к
инструкциям в одной строке с инструкциями. 8.
Нельзя пропускать инструкцию Disallow. Если
вы не собираетесь ничего запрещать к
индексации, то оставьте эту инструкцию
пустой. 9. При
запрещении к индексации директорий
обязательно прописывать слеши. 10.
Самое главное правило – прежде чем
залить файл robots.txt на сервер сайта нужно
сто раз его проверить и перепроверить
во избежание дальнейших недоразумений.