Содержание
- 1 Почему важно настраивать и добавлять robots.txt
- 2 Как создать файл robots.txt
- 3 Какие директивы нужно использовать в файле robots txt
- 4 Частые ошибки при составлении файла robots.txt
- 5 Какие символы использовать в файле robots txt
- 6 Как можно проверить и протестировать файл robots.txt
- 7 Часто задаваемые вопросы:
Robots.txt – это текстовый файл, который содержит инструкции для поисковых роботов. Его цель состоит в том, чтобы подсказать роботам, какие разделы и страницы сайта можно или нельзя индексировать. Настройку файла robots.txt включено в процесс продвижения веб-сайта любой тематики или ниши.
Без этого файла поисковики будут сканировать и индексировать все подряд: дубли, конфиденциальные данные, тестовые страницы и т.д.
Правильный robots txt направляет поисковых роботов, подсказывая, что можно индексировать, а что нужно пропустить.
Почему важно настраивать и добавлять robots.txt
Настраивать и добавлять файл robots.txt к сайту крайне важно по нескольким причинам:
- Контроль индексации: Robots.txt позволяет контролировать, какие страницы или разделы сайта индексируются поисковыми системами. Без файла robots.txt поисковые роботы будут сканировать все доступные страницы сайта, что приведет к индексации нежелательного контента и попаданию многих мусорных страниц в выдачу ПС.
- Оптимизация сканирования: Файл robots.txt может помочь оптимизировать сканирование сайта. Поисковые роботы работают с ограниченными ресурсами, и если они не могут найти файл robots.txt, они будут сканировать сайт более активно. Добавление файла поможет уменьшить нагрузку на сервер и обеспечить более эффективное сканирование.
- Ошибки индексации: Сайт может содержать динамически сгенерированные страницы, которые меняются в зависимости от запросов пользователей или параметров URL.
Без правильного файла robots.txt, поисковые роботы могут индексировать все возможные комбинации параметров, что может привести к созданию дублей контента и большого количества мусорных страниц в поисковой выдаче.
Важно отметить, что robots.txt не предоставляет абсолютной защиты от индексации нежелательного контента, но правильно составленный файл помогает улучшить контроль индексации сайта сразу после разработки сайта и в течении всего его существования.
Как создать файл robots.txt
Создать файл robots.txt достаточно просто. Для этого потребуется текстовый редактор и доступ к серверу хостинга сайта.
Основные шаги для создания файла robots.txt:
- Откройте текстовый редактор (подойдет Блокнот для Windows или TextEdit для Mac).
- Введите правила для поисковых роботов в соответствии с требованиями сайта.
- Сохраните файл с названием – robots.txt (соблюдайте нижний регистр) в корневой директории сайта.
- Загрузите файл robots.txt в корневую папку сайта на хостинге.
Пример: для сайта example.com путь к файлу будет: https://www.example.com/robots.txt.
Какие директивы нужно использовать в файле robots txt
Файл robots.txt поддерживает определенные директивы, которые роботы анализируют для понимания правил доступа к сайту.
Директивы в файле robots.txt – это инструкции, которые задают правила доступа для поисковых роботов к различным разделам и страницам сайта.
Когда поисковый робот сканирует файл robots.txt перед индексацией сайта, он соблюдает указанные в нем директивы и определяет, какие разделы или файлы сайта можно индексировать, а какие нужно исключить из индексации.
Вот некоторые основные директивы:
- User-agent: Эта директива определяет для какого робота или группы роботов применяются следующие правила.
Можно указать одного бота (например, User-agent: Googlebot) или применить директивы ко всем ботам, поставив звездочку (User-agent: *). - Disallow: С помощью этой директивы указываются разделы сайта, которые не должны индексироваться.
- Allow: показывает, что роботу разрешен доступ к странице/разделу сайта, его можно индексировать и отображать в результатах поиска (даже если есть общая директива Disallow).
- Sitemap: С помощью этой директивы можно указать путь к файлу Sitemap, который помогает роботам понять структуру сайта.
Важно: при равных значениях, приоритет будет иметь директива Allow:
Пример:
User-agent: *
Disallow: /images/ – запрет доступа
Allow: /images/ – отмена запрета
Что не должно находиться в файле robots.txt
- Личные данные и конфиденциальная информация:
Никогда не размещайте в файле robots.txt информацию, которую вы хотите скрыть от поисковых роботов и посторонних лиц.
Все страницы, которые собирают личную информацию – должны быть закрыты от индексации альтернативным способом. - Не размещайте в файле robots.txt ссылки на страницы или разделы сайта, которые не должны быть доступны для публичного просмотра или индексации. Например, страницы с ограниченным доступом, тестовые разделы и т.д.
Частые ошибки при составлении файла robots.txt
Составление файла robots.txt – ответственный процесс, и допущенные ошибки могут негативно повлиять на индексацию и видимость сайта в поисковой системе.
Распространенные ошибки, на которые нужно обратить внимание:
- Ошибки синтаксиса: если директивы и символы прописаны некорректно, поисковый робот может их неправильно воспринять.
Ошибки могут быть связаны с неправильными директивами, пропущенными символами, отсутствием пустых строк между директивами, пробелами в неправильных местах и так далее.
Пример:
Неправильно
User-agent: Googlebot
Allow /public/Правильно
User-agent: Googlebot
Allow: /public/
*после директивы Allow пропущено двоеточие. - Дублирование правил: Дублирование может вызвать недопонимание роботами и создать проблемы с индексацией.
- Неправильное указание путей: такая ошибка может привести к блокировке нужного контента или, наоборот, разрешению доступа к ненужным разделам.
Например нужно заблокировать files/images/.Пример неправильного правила:
User-agent: *
Disallow: /imagesПример как нужно:
Disallow: */images
В этом случае будет заблокирована только папка /images, но не её подпапки. - Запрет на индексацию всего сайта: Неправильно прописанный файл может привести к запрету индексации всего сайта, и в следствии полностью исключит его из результатов поиска.Пример:User-agent: *
Disallow: /В этом примере директива User-agent: * указывает на применение правила для всех поисковых роботов. А директива Disallow: / означает запрет доступа ко всем разделам сайта, так как слеш (/) обозначает корневой каталог сайта.
Как итог роботы видят это правило и не будут сканировать и индексировать ни одну страницу сайта. - В файле robots.txt нельзя использовать запятые или пробелы для перечисления нескольких каталогов в одной директиве.Примеры неправильного правила:User-agent: *
Disallow: /private/, /admin/или:User-agent: *
Disallow: /private/ /admin/В обоих случаях правило некорректное. Каждый каталог должен указываться в отдельной строке без использования запятых или пробелов между ними.
Правильный вариант с перечислением в разных строках:
User-agent: *
Disallow: /private/
Disallow: /admin/ - Неправильное название файла
Сам файл должен называться только robots.txt, а не Robots.txt, ROBOTS.TXT или как-то иначе.
Какие символы использовать в файле robots txt
В файле robots.txt вы можете использовать определенные символы для задания правил доступа для поисковых роботов.
Пример основных символов:
- Символ * – любая последовательность символов.
Можно использовать для блокировки или разрешения доступа к определенным разделам или URL-ам на сайте. - Символ $ – используется для обозначения окончания адреса. Это позволяет более точно задавать правила для определенных URL-адресов.
Например: Disallow: /images/$
В этом примере указано запретить индексацию всех страниц, находящихся в папке “images”, но разрешить индексацию её подпапок (например, /images/subfolder/). - Символ # – комментирование. Все, что находится после данного символа (в этой же строке) — игнорируется.
Нужно обратить внимание, что правила в файле robots.txt обрабатываются по порядку.
Т.е. более специфичные правила должны быть указаны перед общими правилами.
Пример как сделать Robots для CMS WordPress
Важно понимать, что настраивая роботс для сайта, нужно учитывать его особенности.
Алгоритм написания robots.txt для WordPress:
- Указать User-agent
- Закрыть от индексации – Disallow:
- файлы админки;
- личные кабинеты, формы регистрации и авторизации;
- инструменты работы с заказами (корзина, формы для заполнения данных и т. д.);
- данные по функционалу поиска;
- страницы дубли;
- параметры фильтров, сравнения, сортировки;
- служебные страницы;
- UTM-метки;
- Открыть (Allow) те файлы и документы, которые необходимо индексировать, но они находятся внутри уже закрытых категорий (например JavaScript, изображения);
- Добавить Sitemap
Пример файла robots.txt для WordPress:
User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /*/*.js
Allow: /*/*.css
Allow: */uploads
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Sitemap: http://site.com/sitemap.xml
Продвижение сайта на WordPress имеет свои особенности и готовые решения, однако robots.txt стоит настраивать вручную.
Как можно проверить и протестировать файл robots.txt
Перед публикацией файла robots.txt на сайте нужно обязательно протестировать его на наличие ошибок.
Способы проверки:
- Использование Robots.txt Tester: В Google Search Console есть robots.txt tester, который позволяет просматривать, как Googlebot будет воспринимать файл.
- Проверка файла через Screaming Frog (просканировали сайт, открываете Configuration → robots.txt → Custom).
Заключение
Правильное составление и настройка файла способствуют улучшению индексации сайта и повышению его видимости в поисковых результатах.
Подводя итог, алгоритм работы с robots.txt:
- Создание и размещение файла в корневой папке сайта на хостинге;
- Добавить в него нужный User-agent, Sitemap;
- Добавить в файл типовые мусорные страницы (например, фильтры и страницы с параметрами);
- Протестировать robots.txt, просканировать сайт краулером (например, Screaming Frog или Netpeak Spider), чтобы проверить общую картину после создания файла. (проверить, что закрыли, возможно заметите еще какие-то мусорные страницы).
Часто задаваемые вопросы:
Что писать в Robots txt?
Как прочитать файл Robots txt?
Где находится файл Robots txt в WordPress?
- При наличии плагина для WordPress например: “Yoast SEO” или “All in One SEO Pack”, можно редактировать файл robots txt в админке сайта.
- В файловой системе своего хостинга, вы можете создать/настроить файл robots.txt в корневой папке вашего сайта (обычно это папка public_html или www).





