ГЛАВНЫЕ НОВОСТИ

Спасение от битых линков

Исследователи из университета Калифорнии в Беркли придумали очередной способ решения проблемы ненайденных страниц и «битых» линков. По мнению экспертов в области сетевых поисковых технологий, предложенное решение — одно из самых изящных в своем роде.

По данным Андрея Бродера, вице-президента по исследованиям компании Altavista, из пяти гиперссылок, существующих на протяжении года и дольше, по крайней мере одна успевает устареть, сообщает CNet News.com. Соответственно, 20 процентов достаточно давно проставленных ссылок ведут на непременный «404 File not found».

Предварительные результаты работы, проведенной Томасом Фелпсом и Робертом Виленски, наметили путь избавления от подобных неприятностей. По подсчетам авторов исследования, для подавляющего большинства документов на вебе можно подобрать уникальные идентификаторы, состоящие всего лишь из пяти хитро подобранных слов. Составленные таким образом идентификаторы учитываются поисковыми машинами наряду с URLs индексируемых документов и впоследствии позволяют разыскать документ, даже если он поменял адрес. Метод, конечно, не решает проблемы уничтоженных страниц и имеет в виду, что утерянная страница все же где-то существует.

Два аспекта работы вызывают особенную гордость авторов: во-первых, она базируется на уже существующей инфраструктуре поисковых систем, во-вторых, количество слов, необходимых для присвоения документу идентификатора, крайне мало (Бродер, проведя ранее аналогичное исследование, пришел к выводу, что для уникального идентифицирования документа требуется восемь слов). Ключевой задачей, таким образом, становится подбор этих самых слов, которые, с одной стороны, составляли бы уникальное сочетание, а с другой — имели отношение к общему смыслу документа. Фелпс и Виленски в качестве идентификаторов для публикации своего исследования использовали ключевые слова «signature, robust, hyperlink, reference, location», а «лексическую подпись» составили из «thinkinginpostscript cityquilt fernec planetext peroperties». (Последнее слово в ней — с орфографической ошибкой; в документе оно содержится как пример уникального идентификатора для другого документа, «Обзора гипертекста» Джеффри Конклина, где действительно допущена такая опечатка. Во всяком случае, получилось достаточно уникальное словосочетание.)

Остается не вполне понятным, каким образом предложенное Фелпсом и Виленски решение может быть реализовано (даже если предположить, что его захотят реализовать). Идентификацией документов придется ведать вебмастерам, а способа заставить тысячи вебмастеров со вниманием относиться к нескольким строкам в каждом из десятков, а то и сотен опубликованных на сайте документов человечество еще не придумало.

Поделиться в соц. сетях

Оставить Ответ


Switch to mobile version