Как закрыть сайт от индексации в robots.txt?При разработке сайта часто возникает вопрос – как закрыть сайт от индексации? К примеру, ресурс только что создан, осталось устранить мелкие недоделки. Работа ведется непосредственно на хостинге, но нежелательно, чтобы черновики попали в поиск.
Существует возможность закрыть сайт от индексации в robots.txt. Это пакетный файл, в который добавляются команды для управления поведением индексирующих роботов поисковых систем.

Управление индексацией с помощью директив robots.txt

Редактировать этот пакетный файл можно в простом текстовом редакторе. Для начала разберемся с основными командами.

  • User-Agent – эта команда определяет, к какому конкретному поисковому боту относятся следующие директивы.
  • Disallow – эта команда указывает, что именно на сайте запретить индексировать.
  • Allow – эта команда разрешает индексировать указанные элементы.

У каждой поисковой системы имеются свои роботы для индексации контента на сайтах в интернете. Команда User-Agent относится именно к поисковому боту.

User-Agent: Yandex
Disallow: *

Этот набор команд запрещает роботу Яндекса индексировать весь сайт (звездочка заменяет любые варианты).

Закрыть сайт от индексацииСписок роботов-индексаторов некоторых популярных поисковых систем:

  • Yandex — Яндекс.
  • Googlebot — Google.
  • Slurp — Yahoo!
  • MSNBot — Bing.
  • SputnikBot — Спутник.

Чтобы запретить роботам Google индексировать какую-либо папку (например, содержащую технические данные, которые не нужны в поиске) следует написать такой набор команд:

User-Agent: Googlebot
Disallow: /folder-name/

Следующий пакет команд единовременно что-то запрещает и разрешает абсолютно любым поисковым ботам:

User-agent: *

Allow: /name-folder/file-name.php

Disallow: /folder-name-2/
#этот пакет директив разрешает индексацию file-name.php, но одновременно запрещает индексацию папки folder-name-2.

Строка, начинающаяся с символа «решетка», содержит не команды, а комментарии и никак не влияет на подведение поисковых роботов.

Как контролировать индексацию, если доступ к robots.txt закрыт?

В некоторых конструкторах сайтов и системах управления контентом прямое вмешательство в содержание robots.txt невозможно. Это сделано в целях исключения ошибок человеческого фактора. Так называемая «защита от дурака» – «fool proof». Чтобы веб-мастер по неопытности либо в спешке что-то важное не испортил.

В таких случаях панель администратора обязательно имеет специальный интерфейс или раздел настроек для задания директив управляющего файла в опосредованном формате.

Интерфейс редактирования robots.txt содержит поля, в которых можно указать, каким роботам разрешено либо запрещено индексировать и что именно.

Такой подход действительно более удобен и безопасен. От администратора сайта совершенно не требуется знания кодировок, команд, программных алгоритмов. Случайные ошибки просто не будут обработаны и сайт не окажется поврежден.