ДеловКайфДеловкайф
Главная SEO-продвижение

Robots.txt: создание, настройка и проверка от А до Я

Вы научитесь работать с robots.txt — управлять индексацией страниц на сайте. Ведь без технической оптимизации не покорить ТОПов!

Robots.txt: создание, настройка и проверка от А до Я

Рассмотрим, как правильно настроить robots.txt для своего сайта вне зависимости от того, какая у вас CMS: WordPress, Joomla или Bitrix. Тема достаточно простая, однако, как показывает практика, многие люди в ней плавают.

Начнем с того, что robots.txt находится в корневом каталоге вашего сайта и открывается по ссылке http://domain.ru/robots.txt. Если у вас его нет, то создайте его — это первое, с чего необходимо начать.

Зачем нужен файл?

Это текстовый файл, который передает поисковым роботам (краулерам) определенные директивы (команды) по обходу сайта.  Рассмотрим каждую из них подробнее.

Комментарии #

Комментарии необходимы в информационных целях и на управление индексацией не влияют. Располагаются после знака «решетка». Бывает, что SEO-оптимизаторы оставляют для будущих исполнителей таким образом информацию! 🙂

Пример №1:

# это мой первый комментарий.

Disallow — команда на запрет

Она отвечает за то, что <strong>НЕ будет индексировать</strong> (сканировать) поисковый робот. С помощью Disallow обычно скрывают системные папки, технические страницы (авторизации, корзину и т. д.), документы с не уникальным контентом.

Пример использования №2:

User-agent: *
Disallow: /*category1

В примере будет закрыта для индексации любая ссылка, которая содержит в себе подстроку category1.

картинка 1

Как запретить индексацию всего сайта?

Это делается с помощью 2 строк:

User-agent: *
Disallow: /

User-agent

User-agent отвечает за указание роботам, какие директивы им считывать.

Пример №3:

User-agent: Yandex
Disallow: /category1
User-agent: *
Disallow: /category2

Особенности:

  • В примере №1 робот Яндекса считает только команду Disallow: /cateogory1, а остальные роботы считают Disallow: /cateogory2.
  • * (звезда) в директиве User-agent обозначает любой поисковый робот.
  • У каждого поисковика есть определенные названия для директивы User-agent. Например, Yandex или Googlebot. Все названия можно найти в документации поисковых систем!
  • После строки User-agent всегда должна стоять команда Disallow или Allow, так как этого требует стандарт.
  • Если User-agent: Yandex или User-agent: * отсутствует, то будет считаться, что доступ краулеру не ограничен.

Пример №4:

User-agent: Yandex
Disallow: # пустая строка Disallow (разрешено полное сканирования сайта)

Allow

Служит антиподом Disallow. Она открывает страницы и разделы сайта для индексирования.

Пример №5:

User-agent: Yandex
Allow: /books
Disallow:
# запрет на сканирование всего сайта за исключением страниц,
# начинающихся с «/books».

Специальный символ *

Символ * (звездочка) равносилен любому символу или последовательности символов.

Пример №4:

Disallow: /*abc

Это значит, что будут закрыты все страницы, наподобие:

  • domain.ru/111/222/333/abc
  • domain.ru/12345/abc
  • domain.ru/abc

В конце каждой строки не обязательно ставить символ *, так как там он ставится по-умолчанию.

Disallow: /*feed
Disallow: /*feed* # одно и тоже.
Disallow: /2015/*/*/ # избыточная конструкция

Спецсимвол $

Символ доллара используется в случаях, когда вы не хотите использовать символ *.

Пример №6:

Disallow: /hello$ # закроем страницу site.ru/hello
Allow: /hello/ # откроем страницы site.ru/hello/1, site.ru/hello/12345.

Sitemap

Служит для указания поисковым роботам ссылки на XML карту сайта.

Пример №7:

Sitemap: http://domain.ru/sitemaps1.xml

Не рекомендую использовать данную директиву в robots.txt, чтобы исключить информацию о местонахождении карты сайта для людей и сторонних парсеров. Достаточно добавить ссылку на Sitemap в панелях для вебмастеров Яндекс и Google.

Host

Директива указывает на главное зеркало сайта. Используется только Яндексом и является межсекционной (значит, что ее можно располагать в любом месте в Robots.txt).

На 2019 год была полностью заменена 301-редиректом, поэтому в ней нет больше надобности.

Crawl-Delay

Команда задает интервалы для загрузки страниц, чтобы снизить нагрузку на сервер. Измеряется в секундах. Добавлять ее необходимо после директив Disallow/Allow.

Пример №8:

User-agent: Yandex
Disallow: # разрешает полное сканирование сайта
Crawl-delay: 4 # Задает тайм-аут для краулера в 4 секунды

Clean-param

Используется для сохранения краулингового бюджета и экономит ресурсы сервера.

Краулинговый бюджет — это лимит документов, который просканирует робот за определенное время.

Создание онлайн

Создать файл вам поможет наш генератор, описанный пошаговым алгоритмом действий.

Шаг 1: основные данные




Шаг 2: какому роботу разрешить индексацию?

 

 

Шаг 3: выберете вашу CMS

 

 

Шаг 4: скопируйте содержимое в robots.txt

 

Проверка валидаторами

Проверить файл можно через сервисы для вебмастеров Яндекса и Гугла. Данные инструменты помогут вам не ошибиться и не закрыть важные страницы сайта для поисковиков!

Ссылка на инструмент: https://webmaster.yandex.ru/site/https:delovkaif.ru:443/tools/robotstxt/

Дополнение:

  1. Выбираем протокол: https или http.
  2. Вписываем свой домен.
  3. Выбираем порт: 443 для защищенного протокола и 80 для http.
картинка 2

Ссылка на инструмент:

https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru&siteUrl=

картинка 3

Полезная информация


Понравилось? Расскажите друзьям:

Также будет полезно

Комментарии