Неважно, какой именно интернет-ресурс вы хотите оптимизировать – новостной сайт или интернет-магазин, одним из наиболее значимых рабочих документов окажется файл robots.txt. Его отсутствие станет причиной повышенной нагрузки на веб-ресурс со стороны поисковиков, замедленной проверки и дальнейших обходов ими страниц.

Правильная настройка файла также крайне важна: в случае ошибки роботы попросту не проиндексируют сайт или он целиком исчезнет из выдачи (не станет обнаруживаться ни Google, ни Яндексом, ни любыми другими системами).

Общая информация о документе

Прежде чем изучать требования и руководства по созданию правильного файла robots.txt, с которым оптимизация вашего сайта не обернется ненужными сложностями, необходимо узнать, что он вообще представляет собой.

Итак, речь идет о текстовом файле формата .txt, главная цель которого состоит в ограничении доступа поисковиков к данным на https сервере. Иными словами, мы говорим про список исключений для поисковых систем, который «по собственной воле» используется последними.

Для справки: стандарт для всех поисковиков был сформирован консорциумом W3C еще пятнадцать лет назад.

Содержимое файла – это комплекс инструкций, запрещающих индексацию конкретных каталогов, веб-страниц и материалов интернет-ресурса.

Необходимость robotstxt для всех сайтов

Использовать стандарт нужно в целях поисковой оптимизации. Предположим, в области СЕО он позволяет исключить (не индексировать) те странички, на которых нет никакого полезного текстового или иллюстрированного материала. Говорить о том, насколько важно исключать «пустой» контент, мы не станем. Это отдельная тема, также обязательная к изучению для тех, кто желает получить привлекательный для Яндекса, Гугла и иных поисковых ботов проект.

Важно! Действительно ли файл robotstxt для сайтов «жизненно важен»? Однозначного ответа не существует. При его наличии можно убрать ненужные страницы и материалы из поиска. Однако если ваш веб-ресурс – «компактный и легкий», со статичными страницами и легкой структурой, никакие исключения ему, скорее всего, не нужны.

Но случается, что и для небольших веб-проектов определенные директивы оказываются крайне ценными. В качестве примера можно привести sitemap и host.

Используя стандарт ограничений, вы сможете:

  1. Запретить индексирование некритичных ресурсов страниц, таких как файлы стилей и неважные скрипты.
  2. Убрать из результатов поисковой выдачи изображения.
  3. Но самое главное, вы сможете прекратить индексацию повторяющихся и ненужных страниц. За счет этого краулинговый лимит (число УРЛов, которые за один подход исследует поисковая система) не станет использоваться впустую.

В конечном итоге вы предоставите поисковику возможность индексации большего количества важных страниц. На оптимизации сайта это отразится существенно.

Правильный файл и индексация сайта — какие результаты мы получаем?

Мы упоминали, что настройка файла для индексации веб-ресурса чрезвычайно важна. Сразу отметим, что поисковики станут проводить работы по индексации вне зависимости от того, есть на сайте указанный документ или нет.

Если «набор инструкций» присутствует, поисковые системы будут учитывать его информацию.

Важно! Некоторые поисковики могут игнорировать определенные указания файла, даже при условии, если была выполнена его правильная настройка. Кроме того, ряд инструкций может быть специфическим определенных поисковых ботов. Приведем актуальные примеры:

  • Яндекс: VideoParser и Direct не работают с более общими командами файла (однако принимают во внимание те, что указываются конкретно для них);
  • Яндекс: News не так давно начал «игнорить» crawldelay;
  • Гугл: Bot также не работает с host в robotstxt и игнорирует crawldelay.

Предельные нагрузки на веб-ресурсы оказываются теми поисковиками, которые скачивают с них контент. Соответственно, определив, что робот должен оставлять без внимания, а что нет, и с какими интервалами времени он должен осуществлять скачивание, владелец уменьшит нагрузки на сайт. И сделает скачивание материалов более оперативным процессом, не позволяя ботам обходить те документы, которые не нуждаются в индексации:

  • Админка и пользовательский Личный Кабинет;
  • Инструменты для поиска товара или информации на сайте;
  • Корзина с пошаговым оформлением заказа;
  • Скрипты json и ajax, без которых невозможен вывод капчи, демонстрация баннеров и всплывающих форм.

Оптимальный вариант для большинства современных поисковиков – отключенная индексация любых CSS и JS. Однако для обхода Яндексом и ГуглБотом эти файлы нужны. Они применяются системами при ранжировании и для определения удобства интернет-проекта.

Как правильно составить?

Если вы не представляете даже, как выглядит указанный файл, думать о том, как сделать его, вам пока еще рано. Узнайте, для начала, что должно быть в файле.

Стандартный файл

Фактически, необходимый нам документ — это список записей, каждая из которых имеет следующие обязательные строчки:

  1. Несколько или одно поле, начинающееся с команды disallow ( команда «:» значение).
  2. Поле юзер агент (наименование клиентского приложения).

Как создать файл без лишних проблем? Используйте формат UNIX. Буквально все качественные редакторы сейчас способны «преобразовывать» каждый знак перевода строчки Виндоус в UNIX.

Важно! Мы советуем вам отказаться от использования html редактора для редактирования. В особенности, если он не способен демонстрировать код в текстовом режиме.

Не прибегайте также к помощи текстовых процессоров, которые часто сохраняют документы в proprietarysoftware, включая в них те символы, которые боты не могут распознать. Предположим, фигурные кавычки.

О командах

Написать robotstxt, не зная основные команды, невозможно.

Для РФ, где объемы Yandex весьма значительные, требуется прописывать команды для всех роботов и в отдельности для Гугла и Яндекса.

Юзер агент

Ключевая команда, указывающая на то, для каких ботовпредназначаются дальнейшие правила.

Пример для любого бота:

  • Юзер агент: *

Команда для определенного робота, предположим, Гугл:

  • Юзер агент: googlebot

Важно! Составляя правильный robotstxt, разрешено использовать любой реестр символов. То есть, вместо «googlebot», можно прописать «GoogleBot», и никакой разницы для системы не будет.

Allow

Команда открывает разделы и материалы для обхода ботами в принудительном порядке.

Disallow

Команда, которая, напротив, закрывает документы от индексации. Но здесь все непросто. Необходимо учитывать наличие и особенности применения дополнительных операторов:

  • # — комментарий. Все, что последует за этим знаком в строке, поисковик проигнорирует;
  • $ — указывает, что предшествующий ему символ должен стать последним;
  • * — отсутствие или любое количество символов. В конце строчки знак можно не прописывать.

Последовательность задающихся команд не имеет значения. Запретить или разрешить обход роботам могут только сами директивы, а не порядок их следования.

Рассмотрим пример файла с командами disallow и allow:

  • Disallow: /templete/
  • Allow: *.css

В данном примере:

  • http://сайт.ru/style.css — разрешить для обхода
  • http://сайт.ru/templete/style.css — запретить для обхода.

Если необходимо, чтобы каждый .css документ был доступен для индексации, следует указать это для каждой закрытой папки дополнительно:

  • Disallow: /templete/
  • Allow: /templete/*.css
  • Allow: *.css

Еще раз отметим, что последовательность указания неважна.

Host и sitemap

Необходимо ли указывать директиву sitemap и директиву host в файл robotstx? Да.

Sitemap используется любым основным поисковиком, включая Гугл и Яндекс. На деле является ссылкой на sitemap.xml. В команде присутствуют все предназначающиеся для обхода страницы. Кроме того, тут прописывается время изменения и приоритеты.

Составляем пример указания директивы вам в помощь:

  • Sitemap: http://сайт.ru/sitenap.xml

Знать о том, как прописывается директива host в файле, следует обязательно. Так как с ее помощью можно обозначить основное зеркало веб-ресурса. Как правило, зеркала характеризуются присутствием или отсутствием www.

Host также рассматривает большая часть ботов. Пример того, как в robotstxt используется такая команда:

  • Host: сайт.ru

Если у проекта файл robotstxt не станет содержать указания на основное зеркало, вас известит об этом Яндекс Вебмастер.

Отсутствие host

Если вы не знаете основное зеркало собственного веб-проекта, укажите в поиске Yandex адрес ресурса и ознакомьтесь с результатами выдачи. Наличие www перед доменным именем укажет на то, что главное зеркало у вас с www.

Если ресурс пока не участвует в выдаче, то через подраздел «Переезд сайта» в Яндекс Вебмастере разрешено по своему усмотрению определить основное зеркало.

Cleanparam

Команда для борьбы с get параметрами, повторением контента. Один и тот же материал может оказаться доступным по различным динамическим ссылкам (их генерирует сам ресурс, например, при применении разных сортировок).

После символа «:» необходимо прописать ref, который станет указывать на источник ссылки, после чего прописать ее «хвост».

Crawldelay

Используется лишь Яндексом. При сильных нагрузках на сервер, когда последний не имеет возможности отрабатывать запросы от бота, прописывайте эту команду непременно. Она даст возможность определить для поисковика предельно допустимый отрезок времени (исчисляется секундами) между окончанием загрузки одной и загрузкой очередной странички.

«Необязательные» команды

Добавить также можно, например, visittime и requestrate. Но главные поисковики их сейчас не учитывают. Первая директива указывает загружать страницы лишь с 06.00 часов утра и до 08.45 часов утра по Гринвичу, вторая – загружать за 5 сек. максимум одну страницу.

Маски

Условные записи, содержащие названия нескольких папок или файлов. Используются для групповых процедур с ними.

Пример файла

Рассмотрим, как выглядит стандарт ограничений с несколькими директориями:

  • Sitemap: http://www.названиесайта.com/sitemap.xml
  • Юзерагент: *
  • Allow: /
  • Юзерагент: Googlebot
  • Disallow: /nogooglebot/

Даем «расшифровку»: агент пользователя с наименованием Googlebot не должен выполнять индексацию подкаталогов и каталога http://наименование  сайта.com/nogooglebot/.

Прочим агентам пользователя весь ресурс будет доступен без ограничения (если параметры не прописывать, результаты окажутся теми же, т.к. предоставление полного доступа осуществляется по умолчанию). Файл sitemap для сайта в нашем примере располагается здесь http://www.название сайта.com/sitemap.xml.

Как создать robotstxt для сайта самостоятельно?

Сложностей с тем, как открыть сайт для индексации, предположим, Yandex robots, не должно возникать. Сформируйте текстовый файл, обозначив его  «robots». Загрузите документ в корневую папку своего веб-ресурса, используя FTP-соединение.

Следите за тем, чтобы документ можно было найти по следующему пути: доменное имя созданного вамиресурса/robots.txt. Никаких вложений не допускается (составляем пример недопустимого вложения — доменное имя вашего сайта/page/robots.txt).

Тем, кто решил применитьспециализированную программуwebftp (есть в панели управления всех hostingprovider), сформировать (а при необходимости и скорректировать) документ можно в нем.

Документ «robots»- пустой: заполнить его, написав команды для роботов, нужно самостоятельно. Методы заполнения разные.

Готовый шаблон

В Рунете можно найти многочисленные шаблоны для любой популярной CMS – от MODxдо ВордПресс. Текстовый файл необходимо создавать самому.

Использование шаблонов дает возможность отказаться от множества классических директив. Но учтите, что оно не обеспечивает полноценную и верную настройку ресурса.

Онлайн генераторы

Ни один генератор не может добавить основное зеркало, если вы не в курсе, какое оно, и убрать из поиска весь «хлам».

Порекомендовать использование генераторов можно только тем, кто думает, как написать повторяющиеся (характерные для большей части сайтов) указания.

Учтите, что «robots», полученный с помощью онлайн сервиса, необходимо править «вручную».

Примеры генераторов:

  • Сервис pr-cy.ru;
  • Сервис SEOlib.ru.

Эти ресурсы позволят вам создать и проконтролировать ограничения файлаrobots.txtбез оплаты, регистрации и в онлайн режиме.

Как настроить файл? Пошаговая инструкция

Следующая важная тема: как правильно настроить robots.txt? Придерживайтесь рекомендуемой нами последовательности действий:

  1. От индексации на своем портале вам нужно «спрятать»:

 

  • Технические дубли (повторяющиеся материалы) и страницы: с указанием UTMметок и сессий, а также характеристик сравнения, сортировки и фильтров;
  • Документы сдублирующим контентом (RSS, архивы, календари);
  • «Пустые» для поисковиковрабочие ресурсы(перечень авторов, код 404 и прочие);
  • Все опции по заказам и отправке, не забывая корзину товаров;
  • Инструменты поиска по материалам вашего интернет-сервиса;
  • Регистрацию, авторизацию, ЛК;
  • Js иcss для всех поисковых ботов (помимо Гугла и Яндекса), тематики дизайна, плагины;
  • Cgi-файлы, скрипты ajax и json.

 

  1. В поиске укажите «site:site.ru» и вы узнаете, что Гугл и Яндекс уже проиндексировали. Если вы видите документы, которые индексироватьне следует, значит, необходимо изменить файл robots.txt, приписав их в него.
  2. Оформите host и sitemap, другие директивы по своему желанию.
  3. Используя сервисы Яндекса и Гугла (про них мы поговоримнемного позднее), убедитесь в том, что редактировать текстовый документ больше не требуется. Он составлен корректно.

Спустя пару недель вам стоит узнать, появились ли в поиске те страницы, которые не должны быть индексированы. Если вы видите их, выполните процедуру еще раз.

Синтаксис

Поисковики по собственной воле исполняют рекомендацииrobots.txt. Но все боты однозначно«понимают» синтаксис списка с исключениями. Простые рекомендации, которые позволят вам не думать о том, как редактировать стандарт в ближайшие месяцы:

  • В начале строчки пробел не ставится;
  • Пустой перевод строчки зачастую воспринимаетсяботом как завершение юзер агент;
  • Прописать комментарий можно, используя символ #;
  • Команда прописывается так: [наименование_параметра]:[неОбязательныйПробел][значение][неОбязательныйПробел];
  • «Размер» параметра директивы – одна строчка;
  • Каждая очередная директива должна быть указана с новой строчки;
  • Одна строчка должна содержать одну же директиву максимум;
  • Применять символы «» и ; не требуется;
  • Применять знаки любого «государственного» алфавита в стандарте запрещено;
  • Перечисляя без пустого перевода строчки параметры юзер агент, вы рискуете тем, что помимо 1-ой директивы, любые остальные параметры не станут учитываться поисковиками;
  • Пустой стандарт воспринимается ботами как разрешающий индексировать все;
  • По какой бы причине поисковые системы не могли получить доступ к файлу, они будут воспринимать его как пустой с указанными выше последствиями;
  • Рекомендуем изменить файл, если его вес свыше 32 Кб. Такие «массивные» robots.txt также определяются, как разрешающие индексировать все;
  • Если параметр директивы – ее директория, перед именем директории указывается символ /. Выглядит это так: disallow: /category;
  • Прописыватьданные и наименования директив заглавными буквами все же не нужно. Дело в том, что сам стандарт не чувствителен к реестру, но «ощущаются» наименования его файлов и директорий.

Важно! Название стандарта пишется со строчной буквы — robots.txt. Никаких РОБОТС.TXT и Robots.txt.

  • В disallow и allowне пишите более 1-ого параметра;
  • Если у disallow будет пустое значение (пример написания: «disallow: »), боты воспримут это в качестве команды индексировать все.

Различные роботы трактуют синтаксис набора рекомендаций по-разному –по собственному усмотрению. Поэтому часть перечисленных пунктов иногда не следует принимать в расчет. Предположим, написав пару раз юзер агент без пустого перевода строки, вы увидите, что все юзер агент директивы Yandex воспримет корректно. Т.к. он выделяет данные по присутствию в строчке соответствующих слов.

Каким образом должен выглядеть правильный robotstxt? Прежде всего, избавьте его от всего «ненужного». Не старайтесь перечислить все страницы подряд.

Характерные погрешности

Перечислим те ошибки, которые наиболее часто допускают при создании robots.txt:

  • От использования файла отказываются вовсе;
  • Перечислены только главные директивы. Стандарт не прорабатывался индивидуально;
  • Странички с идентификаторами сессий и UTMметками открыты для индексации;
  • Host указывается не единожды и/или в этой директиве не прописан протокол https;
  • Sitemap написан не правильно, указано неверное главное зеркало или не тот протокол.

Случается, что от индексации случайно закрыт сам ресурс (пример: disallow: /).

Добавление документа

Итак, вы создали стандарт исключений для поисковиков. Что дальше? Его требуется перенести на ресурс. Еще раз указываем, что размещать документнеобходимо в корневом каталоге, определив следующий путь:наименованиевеб-проекта.ru/robots.txt.

Любые поисковые операторы, неважно, кем осуществляется их управление – Яндексом или, например, Гуглом,будут обращаться к robotstxtпо URL /robots.txt.

Проверка и корректировка

Инструменты, которые позволят проверить файл:

  • Гугл: в SearchConsole – вам нужен подраздел Программа проверки файлаrobots.txt, находящаяся в разделе Сканирование. Преимущества решения: любые вероятные проблемы и ошибки можно увидеть незамедлительно, скорректировать данные можно «на месте».

Обратите внимание: любые изменения, которые вы внесете в программе, автоматически ваш файл robots.txt добавлены не будут! Вам потребуется скопировать измененные данные и сохранить их в файле на своем веб-ресурсе;

  • Яндекс: в Вебмастере – выберите строчкуАнализ robots.txt в меню Инструментов. Преимущества решения: есть возможность удостовериться, что все исключения окажутсяопределены Яндексом верно, можно провести массовую проверку страниц на доступность индексации, подтверждать права на ресурс не требуется, авторизация на портале не нужна.

Также существуют «сторонние» онлайн сервисы, которые можно применять с той же целью. Например, https://services.sl-team.ru/other/robots.

Если вы увидели false в документе, и хотите отредактировать файл, не делайте это в формате DOS. Мы уже рекомендовали вам выбиратьUnix. Закачивайте robots.txt на свой веб-ресурс в ASCII-режиме.

Подводим итоги

Обновление CMS проводится регулярно. Вполне возможно, что в самом ближайшем будущем вам потребуется запретить индексирование иных страниц, чем теперь. С учетом потребностей, запрет на индексирование можно добавлять или снимать. Как это сделать, вы теперь знаете.

Поделитесь Вашим мнением в коментариях