Поисковые машины используют также следующие текстовые критерии релевантности
найденных страниц запросу:
" позиция найденных слов в титульной фразе;
"вес" найденного слова и близость его к началу
документа;
" наличие найденных слов в заголовках (<h1>,
<h2> и т. д.) и фрагментах, выделенных жирным шрифтом (<b>,
<strong>);
" близость найденных слов друг к другу (компактность
цитаты).
Объясним, что подразумевается под "найдеными словами". Индексирующие
поисковые системы основаны на идее поиска "цитаты". Подразумевается,
что пользователь хочет увидеть документ, в котором есть слова, введенные
им в виде запроса. Поисковик находит в своем индексе такие документы
и выдает их адреса.
В вышеперечисленных критериях "найденное слово" - это слово,
имеющееся как на веб-странице, так и в поисковом запросе, по которому
должна быть показана ссылка на данную веб-страницу.
С ростом количества документов в Сети все острее становилась проблема
ранжирования ссылок, выдаваемых поисковиками в ответ на запросы пользователей.
Их стало слишком много. Поэтому разработчики стали один за другим вводить
критерии, позволяющие как бы "уточнить" релевантность страницы
- степень соответствия документа запросу.
Если в документе речь идет о каком-то предмете, по идее, этот предмет
должен часто упоминаться (называться), т.е. частота слова - названия
предмета будет повышенной. Этот параметр называется "весом"
слова.
Авторы текстов знают, что главную идею материала лучше всего выносить
в начало текста, поэтому некоторые поисковые системы положение найденного
слова по отношению к началу документа стали также принимать за критерий
релевантности.
Положение слов относительно друг друга, особенно в титуле, тоже является
критерием.
В случае поисковых запросов, состоящих более чем из одного слова,
справедливо предположение (вспомним основную идею индексирующих поисковиков),
что пользователь ищет цитату, то есть именно вхождение введенного словосочетания.
Возможно, в запросе и пропущены некоторые слова, но в любом случае порядок
слов и близость их друг к другу важны.
Например, в запросе стропила плотники легко узнается название повести
Сэлинджера "Выше стропила, плотники!", а плотники стропила
напоминают уже о Бродском ("поднять не звали плотников стропила").
Подобная компактность цитаты хорошо распознается поисковыми системами.
Почему в качестве критерия релевантности используется наличие слов запроса
в выделенных фрагментах и заголовках документа, очевидно: именно таким
образом создатели текстов выделяют наиболее значимые слова, на которые
хотят обратить внимание.