Яндекс

«Яндекс» — поисковый движок, принадлежащий российской корпорации «Яндекс», основной продукт компании. Доля Яндекс. Поиска составляет 56,8% на рынке рунета (август 2015 года).

Поисковая машина Яндекса состоит из трёх главных компонентов:

  • Агент — это поисковый робот. Он обходит сеть, скачивает и анализирует документы. В случае обнаружения новой ссылки при анализе сайта она попадает в список веб-адресов робота. Поисковые роботы бывают следующих типов:
    • Пауки (англ. Spider) — загружают сайты подобно браузерам пользователя.
    • «Путешествующие» пауки (англ. Crawler) — обнаруживают новые, ещё неизвестные ссылки на основе анализа уже известных документов.
    • Индексаторы — занимаются анализом обнаруженных веб-страниц и добавляют данные в индекс. Множество выкачанных документов разбиваются на непересекающиеся части и очищаются от разметки.
  • Индекс — база данных, собранная роботами-индексаторами поисковых машин. По индексу и осуществляется поиск документов.
  • Поисковый механизм — интерфейс для взаимодействия пользователя и базы данных, то есть программа, с которой мы непосредственно имеем дело.

Индексация

Поисковая система Яндекса индексирует следующие типы файлов: html, pdf, rtf, doc, xls, ppt, docx, odt, odp, ods, odg, xlsx, pptx.

Также, Яндекс способен индексировать текст внутри объектов Shockwave Flash и файлы с расширением.swf.

Роботы индексации

В Яндексе работают 2 сканирующих робота — «основной» и «быстрый». Первый отвечает за интернет в целом, второй индексирует сайты с часто меняющейся и обновляемой информацией (новостные сайты и информационные агентства). В 2010 году «быстрый робот» получил новую технологию под названием «Orange», разработанную совместно калифорнийским и московским подразделениями Яндекса.

Уроки по теме: