Новые поисковые роботы Яндекса – поиск в реальном времени
Для обеспечения мгновенной индексации новых документов запущены два поисковых робота – «Orange Crawler» и «Real-Time поиск». Основное отличие введенной технологии от «быстроробота» заключается в том, что новые документы будут выкладываться в поиск сразу, по мере нахождения. До этого Яндекс применял другую схему – сначала накапливал необходимое количество нового материала, а через некоторое время выкладывал сразу пачку. Теперь экономится время, которое затрачивалось на накопление новых адресов.
Не секрет, что технология, прежде всего, направлена на поиск новостей. Так, от 2% до 8% поисковых запросов связано со свежими событиями, происходящими в мире. Яндекс хочет улучшить выдачу именно по этим запросам. Определять важность планируется на основании роста запросов и тематике информации. Понятно, что основные места, откуда будут черпаться свежие сведения – новостные порталы.
Поисковый робот Оранж изучает структуру ссылок интернета, обходит самые важные, по мнению Яндекса, и выискивает новые адреса. После обнаружения новых документов производится расчет ссылочного ранжирования, и дальше информация передается роботу Реал-Тайм поиска, который занимается непосредственно индексацией страниц и выкладыванием их в поиск. Именно за счет такого взаимодействия сразу двух роботов планируется добиться мгновенного появления новых страниц в поиске.
Основная нагрузка возложена на робота Оранж, представляющего собой огромную распределительную вычислительную систему. Уже сегодня, по заявлению Яндекса, Оранж обрабатывает сто тысяч запросов в секунду. Архитектура распределительной вычислительной системы позволяет неограниченно увеличивать мощность поискового робота и объем хранимой информации.
Сайты, на которых постоянно появляется свежий материал, всегда часто посещают поисковые роботы. А вот с новыми сайтами, которые не могут попасть в индекс месяцами, ситуация, похоже, совершенно не изменится. Так же, как не решат новые поисковые роботы проблему копирования контента.
«Яндекс – зеркало интернета». – так заявляют представители компании. Новые поисковые технологии должны добиться того, что отражение в этом зеркале будет всегда свежее, и пользователь увидит в нем только реальный веб.
Всего комментариев: 0 | |