25.10.2017

Поисковые роботы Google, Яндекса, других ПС и сервисов

Просматривая логи сервера, иногда можно наблюдать чрезмерный интерес к сайтам со стороны поисковых роботов. Если боты полезные (например, индексирующие боты ПС) — остается лишь наблюдать, даже если увеличивается нагрузка на сервер. Но есть еще масса второстепенных роботов, доступ которых к сайту не обязателен. Для себя и для вас, дорогой читатель, я собрал информацию и переделал ее в  удобную табличку.

Кто такие поисковые роботы

Поисковый бот, или как еще их называют, робот, краулер, паук — ни что иное, как программа, которая осуществляет поиск и сканирование содержимого сайтов, переходя по ссылкам на страницах.поисковые роботыПоисковые роботы есть не только у поисковиков. Например, сервис Ahrefs использует пауков, чтобы улучшить данные по обратным ссылкам, Facebook осуществляет веб-скраппинг кода страниц для отображения репостов ссылок с заголовками, картинкой, описанием. Веб-скраппинг — это сбор информации с различных ресурсов.

Использование имен пауков в robots.txt

Как видим, любой серьезный проект, связанный с поиском контента, имеет своих пауков. И иногда остро стоит задача ограничить доступ некоторым паукам к сайту или его отдельным разделам. Это можно сделать через файл robots.txt в корневой директории сайта. Подробнее про настройку роботса я писал ранее, рекомендую ознакомиться.

Обратите внимание — файл robots.txt и его директивы могут быть проигнорированы поисковыми роботами. Директивы являются лишь рекомендациями для ботов.

Задать директиву для поискового робота можно, используя секцию — обращение к юзер-агенту этого робота. Секции для разных пауков разделяются одной пустой строкой.

Выше приведен пример обращения к основному поисковому роботу Google. 

Изначально я планировал добавить в таблицу записи о том, как идентифицируют себя поисковые боты в логах сервера. Но так как для SEO эти данные имеют мало значения и для каждого токена агента может быть несколько видов записей, было решено обойтись только названием ботов и их предназначением.

Поисковые роботы Google

User-agent Функции
Googlebot Основной краулер-индексатор страниц для ПК и оптимизированных для смартфонов
Mediapartners-Google Робот рекламной сети AdSense
APIs-Google Агент пользователя APIs-Google
AdsBot-Google Проверяет качество рекламы на веб-страницах, предназначенных для ПК
AdsBot-Google-Mobile Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств
Googlebot-Image (Googlebot) Индексирует изображения на страницах сайта
Googlebot-News (Googlebot) Ищет страницы для добавления в Google Новости
Googlebot-Video (Googlebot) Индексирует видеоматериалы
AdsBot-Google-Mobile-Apps Проверяет качество рекламы в приложениях для устройств Android, работает по тем же принципам, что и обычный AdsBot

Поисковые роботы Яндекс

User-agent Функции
Yandex При указании данного токена агента в robots.txt, обращение идет ко всем ботам Яндекса
YandexBot Основной индексирующий робот
YandexDirect Скачивает информацию о контенте сайтов-партнеров РСЯ
YandexImages Индексирует изображения сайтов
YandexMetrika Робот Яндекс.Метрики
YandexMobileBot Скачивает документы для анализа на наличие верстки под мобильные устройства
YandexMedia Робот, индексирующий мультимедийные данные
YandexNews Индексатор Яндекс.Новостей
YandexPagechecker Валидатор микроразметки
YandexMarket Робот Яндекс.Маркета;
YandexCalenda Робот Яндекс.Календаря
YandexDirectDyn Генерирует динамические баннеры (Директ)
YaDirectFetcher Скачивает страницы с рекламными объявлениями для проверки их доступности и уточнения тематики (РСЯ)
YandexAccessibilityBot Cкачивает страницы для проверки их доступности пользователям
YandexScreenshotBot Делает снимок (скриншот) страницы
YandexVideoParser Паук сервиса Яндекс.Видео
YandexSearchShop Скачивает YML-файлы каталогов товаров
YandexOntoDBAPI Робот объектного ответа, скачивающий динамические данные

 Другие популярные поисковые боты

User-agent Функции
Baiduspider Спайдер китайского поисковика Baidu
Cliqzbot Робот анонимной поисковой системы Cliqz
AhrefsBot Поисковый бот сервиса Ahrefs (ссылочный анализ)
Genieo Робот сервиса Genieo
Bingbot Краулер поисковой системы Bing
Slurp Краулер поисковой системы Yahoo
DuckDuckBot Веб-краулер ПС DuckDuckGo
facebot Робот Facebook для веб-краулинга
WebAlta (WebAlta Crawler/2.0) Поисковый  краулер ПС WebAlta 
BomboraBot Сканирует страницы, задействованные в проекте Bombora
CCBot Краулер на основе Nutch, который использует проект Apache Hadoop
MSNBot Бот ПС MSN 
Mail.Ru Краулер поисковой системы Mail.Ru
ia_archiver Скраппит данные для сервиса Alexa
Teoma Бот сервиса Ask

Поисковых ботов очень много, я отобрал только самых популярных и известных. Если есть боты, с которыми вы сталкивались по причине агрессивного и настойчивого сканирования сайтов, прошу в комментариях указать это, я добавлю их также в таблицу.

Просмотров записи: 167
Проблемы с продвижением? Закажите экспресс-аудит по антикризисной цене!
  • Пётр

    А зачем скрывать от поисковых роботов свой сайт? Чем больше о тебе знают тем лучше, мне кажется. А нагрузку на север должен хостинг провайдер держать. Или я чего-то не понимаю? Хотя, когда пересмотрел список ботов подумал, может, действительно, не всех нужно пускать на сайт.