Бесплатно Файл robots.txt - составляем правильно и убираем ошибки

Тема в разделе "Белое и черное SEO, контекст", создана пользователем Hermanicus, 12 апр 2017.

  1. Удивительно, но, согласно статистике, лишь 49% владельцев Рунет-сайтов используют файл "robots.txt". Надеюсь, что Вы его давно применяете, а потому давайте просто разберем частые ошибки в "robots.txt", от которых зависит очень многое с позиции SEO, ведь зачастую вся работа по поисковой оптимизации сайта идет насмарку из-за того, что этот файл составлен некорректно, либо вообще отсутствует.

    Как видите, мы запрещаем для индексации все те файлы и папки, что содержат служебные документы и вложения, плюс, если активен плагин (J)ExR, делающий внешние ссылки внутренними, закрываем папку, что указана в его настойках, а также страницы, получаемые от поиска по блогу, которые в индексе совсем не нужны.

    Кстати, можно легко проверить - какой ответ дает любая страница сайта поисковой системе: для этого посетите страницу сервиса be1 (адрес: be1.ru/stat/) и введите в форме любой URL, после чего Вы увидите результат, где код 200 (как на рисунке) - тот самый код, говорящий, что со страницей сайта все в порядке и она доступна для индексации.

    Если говорить о статичных сайтах или сайтах на CMS, отличных от WordPress, то здесь часто встречается следующая ошибка: сайт доступен как по запросу "сайт.ru/", так и по запросу "сайт.ru/index.php", причем, на оба эти варианта сервер выдает 200-й код, а с позиции SEO это означает лишь одно - дубль главной страницы Вашего сайта, что, понятно, крайне нежелательно.

    Если Вы не особо сильны, чтобы что-то исправить в структуре своего сайта, то обязательно закройте от индексации поисковыми системами страницу, дублирующую главную страницу сайта, дописав в файле "robots.txt" строчку: "Disallow: /index.php"

    Теперь проверьте в вышеупомянутом сервисе be1 (ссылка чуть выше) - и запрос "сайт.ru/" и запрос "сайт.ru/index.php" будут одинаково отвечать двухсотым кодом, но во втором случае (введя "сайт.ru/index.php"

    Ошибка заключается в том, что указав Яндексу (как, впрочем, он и просит делать), как воспринимать Ваш домен - с "www" или без него, а также показав ему адрес размещения карты сайта, тем самым Вы освободили его от команды: "User-agent: *"

    И теперь Яндекс будет игнорировать запреты, адресуемые всем поисковым роботам, поскольку к нему мы обратились отдельно, а, значит, нужно для Яндекса прописать отдельно все те же позиции, что и для всех остальных поисковых роботов.

    Кстати, еще обратите внимание: пустой строки перед директивой "Host" быть не должно, поскольку это считается нарушением стандарта составления файла "robots.txt".

    На этом можно обзор ошибок и правил составления "robots.txt" закончить - используйте "robots.txt", закрывайте от индексации ненужные папки, дубли, бесполезные папки со скриптами интернет-магазинов и т.д., - делайте сайты значимыми как для людей, так и для поисковых систем (как видите, это можно совмещать …), а не для ссылочных бирж.

    В-общем, если кратко, - не входите в 51% вебмастеров, чьи сайты не имеют "robots.txt", равно как и не преследуйте цель искусственно увеличить число страниц для сапы, а повышайте привлекательность своего ресурса для поисковых систем, чтобы привлечь посетителей!
     

Поделиться этой страницей