МЕНЮ
Смотреть демо
0

Ваш заказ

Правильный robots txt

Привет, сегодня мы расскажем о том, как создать правильный Robots txt и зачем он вообще нужен.

Содержание:
  1. Что такое robots txt
  2. Как создать правильный robots txt
  3. Директива User-agent
  4. Директивы Allow и Disallow
  5. Спецсимволы * и $
  6. Директива sitemap
  7. Директива Host
  8. Кириллица в robot txt
  9. Настройка robots txt в MogutaCMS


Что такое robots txt

В одной из наших прошлых статей мы рассказывали и том, как работают поисковые роботы. Файл robots txt даёт инструкции поисковым роботам, о том, как правильно индексировать ваш сайт. С помощью директив вы можете, например, указать роботу какие страницы или директории следует индексировать, а какие нет, сформировать группу зеркал для вашего сайта(если они у вас есть), указать путь к файлу sitemap и так далее. В основном его используют именно для запрета индексации определённых страниц сайта.

как задать правильный robots txt

Как создать правильный robots txt

В любом текстовом редакторе создайте файл с именем robots txt. Затем, используя директивы описанные ниже, укажите роботу на страницы сайта, которые надо добавить или же наоборот убрать из поисковой выдачи. После того, как вы создали файл, проверьте его на наличие ошибок с помощью Яндекс вебмастера или Google Search Console.

как проверить robots txt

Готовый файл поместите в корневой каталог вашего сайта(там, где находится файл index.html).


Директива User-agent

Это своеобразное приветствие поисковых роботов.

Строка "User-agent:*" Скажет, что все поисковые роботы могут использовать инструкции, содержащиеся в этом файле. А, например, строка "User-agent: Yandex" даст инструкции только для поискового робота яндекса. Примеры использования указаны ниже. Также у поисковых систем есть вспомогательные роботы для разных категорий. Например, YandexNews и Googlebot-News - это роботы для работы с новостями.


Директивы Allow и Disallow

С помощью директивы Disallow вы указываете какие страницы или каталоги сайта запрещено индексировать. А с помощью директивы Allow, соответственно, можно.

Примеры:

User-agent:*
Disallow: /
Allow:/catalog/


Такая запись сообщит всем поисковым роботам, что из всего сайта им можно индексировать только директорию catalog.

Кстати, символ # предназначен для описания комментариев. Все, что находится после этого символа и до конца строки не учитывается.

А вот пример robots txt с указанием индивидуальных инструкций для разных поисковиков:


#разрешает роботу индексировать весь сайт, кроме раздела с велосипедами
User-agent:* 
Disallow: /велосипеды/


#запрещает роботу индексировать сайт, кроме раздела с лодками
User-agent: Googlebot
Allow: /лодки/
Disallow:/

#запретит всем остальным поисковым системам индексировать сайт
User-agent: *
Disallow: /



Обратите внимание, что между директивами User-agent, Allow и Disallow не может быть пустых строк!


Спецсимволы * и $

В директивах allow и Disallow можно использовать спецсимволы * и $, чтобы задавать регулярные выражения. *-выбирает указанную последовательность

Например:
#Запрещает роботам индексировать все страницы, url которых содержит private
User-agent:*
Disallow: /*private

По умолчанию в конце каждого правила необходимо прописать спецсимвол *. А чтобы отменить * в конце правила используется символ $.

Например:
# запрещает '/lock'
# но не запрещает '/lock.html'
User-agent:*
Disallow: /lock$

# запрещает и '/lock'
# и '/lock.html'
User-agent:*
Disallow: /lock


Спецсимвол $ не запрещает указанный * на конце, то есть:


User-agent:*
Disallow: /lock$   # запрещает только '/lock'
Disallow: /lock*$  # так же, как 'Disallow: /lock' 
                              # запрещает и /lock.html и /lock


Директива sitemap

Если вы используете карту сайта sitemap, то используйте директиву sitemap и в ней укажите путь к одному(или нескольким файлам).


User-agent:*
sitemap:https://site.com/sitemap.xml


Директива Host

Если у вашего сайта есть зеркала, то с помощью этой директивы специальный робот сформирует группу зеркал вашего сайта, а в поиск внесет только главное зеркало. Эта директива не гарантирует выбор указанного сайта в ней в качестве главного зеркала, но даёт ему высокий приоритет при принятии решения.

Пример:

#указываем главное зеркало сайта


User-Agent: Yandex
Disallow:/mg-admin
Host: https://www.zerkalo.ru

Примечание. Эта директива используется исключительно для Яндекса! + Для каждого файла robots.txt обрабатывается только одна директива Host. Если в файле указано несколько директив, робот использует первую.

Директива Host должна содержать:

  1. Протокол HTTPS, если зеркало доступно только по защищенному каналу. Если вы используете протокол HTTP, то его указывать необязательно.
  2. Одно корректное доменное имя, соответствующего RFC 952 и не являющегося IP-адресом.
  3. Номер порта, если необходимо (Host: myhost.ru:8080).


Можно ли использовать кириллицу в robots txt?

Нет, использовать кириллицу нельзя. Для указания имен доменов на кириллице используйте, например, этот сервис.


Настройка robots txt MogutaCMS

В MogutaCMS заполнять robots.txt не требуется, т.к. он заполняется автоматически при установке движка.

Теперь вы знаете, как задать правильный robots txt, а  также знаете как использовать различные директивы для управления индексацией своего сайта, а если у вас остались какие-либо вопросы, то мы готови ответить на них в специальном обсуждении в вк или же в комментариях ниже. До новых встреч!

Комментарии (0)

Имя:
E-mail:
Прикрепить изображения

Получать уведомления о новых комментариях: