Попробуйте считать на русском О секретах поисковых технологий написаны уже терабайты электронных текстов. Сегодня только ленивый не пишет об алгоритме PageRank Попробуйте считать на русском

О секретах поисковых технологий написаны уже терабайты электронных текстов. Сегодня только ленивый не пишет об алгоритме PageRank на Google или о маркетинговой стратегии Яндекса при размещении платных ссылок.
Я же хотел обратить ваше внимание на вопросы, возникающие с использованием русского языка как поисковыми системами, так и систем анализа, продвижения и управления ресурсами.

Уже стала расхожим штампом фраза Тургенева о русском языке, великом и могучем. Одной из «национальных особенностей» нашего языка является его уникальная морфологическая система. Морфология – это наука о правилах словоизменения и словообразования. Все мы в школе постигали азы русской морфологии: корень, суффикс, приставка, окончание. Кстати, именно окончание, или, по-научному, флексия – самая большая головная боль разработчиков русскоязычных поисковиков. Флективность русского языка, то есть способность слов менять свое окончание в зависимости от рода, числа и падежа заставляет разработчиков поисковых машин придумывать сложнейшие алгоритмы и модели обработки текста. Все так сложно, скажете вы? Да, и это только начало. На горизонте уже стоит задача обработки омонимии (совпадения разных слов в их написании), выявление словосочетаний и синонимических парафраз, разрешения лексической многозначности и многое, многое другое. Но в секретные лаборатории алхимиков Рунета мы заглянем с вами в следующий раз. Это выходит за рамки нашей темы. Сегодня мы говорим только о морфологии.

К счастью в семидесятые годы морфология русского языка была очень удачно и практически исчерпывающе описана А.А. Зализняком, ставшим в последствие академиком РАН. Вышел в свет Грамматический словарь русского языка, который выдержал несколько переизданий и по сей день пользуется заслуженной славой среди специалистов по компьютерной лингвистике. Именно этот ресурс послужил основой успешного решения проблемы русской морфологии. На сегодняшний день существует несколько морфологических анализаторов, работающих на разных принципах. Наиболее продвинутую модель, как в части скорости обработки так и в части полноты словаря, предложил Андрей Коваленко. Его продукт встроен в Апорт и Рамблер.

Зададимся вопросом «Почему для русскоязычных поисковиков так важен учет морфологии? Не усложняем ли мы проблему? Ведь вот, например, тот же Google в Рунете обходится без морфологического анализа, и вроде ничего».

О поисковой системе Google чуть позже, а сначала небольшой экскурс в историю становления дела поиска информации в Рунете. Мы не будем углубляться в исторические дебри Юрского Периода, когда Интернета еще не существовало, и поиск по текстам являлся частной задачей организации библиотечного дела. Начнем сразу с истории пяти-восьмилетней давности. На заре становления Инета было четыре конкурирующих поисковых системы, которые появились почти одновременно (разница в год-два имела значение только на первом этапе). Кто же это? Рамблер, Лист, Апорт и Яндекс.

Из этой великолепной четверки, Лист выделялся тем, что практически не обрабатывал русскую морфологию, остальные ее активно учитывали при индексировании текстов. В итоге через семь-восемь лет о поисковой системе Лист знают только специалисты по истории Рунета, она просто ушла в небытие. Яндекс при том, что он пришел на рынок позже Рамлера, завоевал огромную и вполне заслуженную популярность среди миллионов своих фанатов именно точным и аккуратным морфологическим анализом. Рамблер и Апорт также возглавляют список корифеев поиска в Рунете.
Теперь о Google. Поисковый гигант в течение пяти лет пытался перенести свой успешный опыт поиска без морфологии с англоязычного Интернета на русскоязычный. Каковы же итоги? Google так и не попал даже в тройку лидеров в Рунете и, похоже, что для осуществления своих амбициозных планов в Рунете Гуглу все же придется подружиться с русской морфологией.

Какой же вывод? Вывод простой. В Рунете без морфологии, как без воды –«и не туды, и не сюды». То есть – морфологический анализ в русскоязычной поисковой системе позволяет существенно повысить качество поиска. Это почти медицинский факт и спорить тут нечего. Ну как тут опять не отметить, что у этих русских снова свой особый путь даже в Интернете.

Итак, с поисковиками вроде все понятно. А как же обстоит дело с программным обеспечением для поискового продвижения? Дело в том, что история с поисковиками зеркально повторяется в истории с системами поисковой оптимизации. Ну с англоязычными системами все понятно. Им нет дела до русской морфологии. Все без исключения системы поисковой оптимизации в Рунете до 2005 года не учитывали морфологию. На сегодняшний день первым и единственным программным обеспечением, учитывающей русскую морфологию тем же способом, как российские поисковики, является продукт компании NetPromoter – программа Page Promoter. В ней это реализовано с помощью того же морфологического анализатора русского языка Андрея Коваленко, который используют российские поисковики. И все же, что же такого революционного ввела в свой комплекс компания NetPromoter? Насколько важно пользоваться программой, поддерживающую русскую морфологию? Допустим, вы используете какую-нибудь систему поисковой оптимизации, скажем «Забег», и она вам выдает статистику запросов по выбранным вами ключевым словам. Вы планируете свой рекламный бюджет на основании этих цифр. А в итоге оказывается, что и статистика совсем другая и бюджет сформирован в корне неверно.
Таким образом, приобретая программу, которая не учитывает морфологию русского языка, вы заранее соглашаетесь на получение данных со значительной погрешностью. Результат? Деньги, которые вы потратили на рекламу, работают не только неэффективно, но зачастую против вас, так как неудачное позиционирование в поисковых системах подсознательно воспринимается пользователем как спам и сильно бьет по репутации рекламодателя. А ведь, как говорится, чем чаще счет, тем дольше дружба. В программе Page Promoter эта ситуация практически исключена. Вы получаете абсолютно точную статистику по всем вашим запросам с полным учетом морфологии. Иногда разница по отдельным ключевым словам набегает в разы. Мы не будем сейчас останавливаться на других достоинствах этой уникальной системы поисковой оптимизации. Дотошный пользователь может испытать их сам на тестовой версии, которая всегда доступна на сайте компании.

Чтобы хотелось донести до внимательного читателя, зачастую у нас замечательная идея становится неэффективной из-за пренебрежения к деталям. В силу профессиональной деятельности, я неоднократно общался с разработчиками и промоутерами онлайн-проектов, потерпевших крах. Всем этим замечательным людям я бы посоветовал тщательнее относиться к инструментам реализации своих идей. Эта не та графа расходов, на которой можно сэкономить. Хотелось бы отметить, что зачастую в онлайне, так же как и в оффлайне, история ничему не учит. Экономьте деньги, господа! Не покупайте дешевое.

Владимир Поляков
доцент МИСиС и МГЛУ, к.т.н.