Использование поисковых систем в лингвистических исследованиях


Google

Ряд исследователей рассматривает Интернет как самоорганизовавшийся лингвистический корпус, состоящий из миллионов текстов различных функциональных стилей и жанров на десятках языков. Поисковые системы, такие как Google, выступают интерфейсом доступа к этому «корпусу». На популярных языковых сайтах и даже в лингвистических работах всё чаще можно встретить сопоставления типа «На запрос 1 Google находит x результатов, а на запрос 2 – y результатов».

Эта тенденция наглядно демонстрирует, что в дихотомии «прескриптивизм–дескриптивизм» приоритет для современной лингвистики имеет второй элемент. Результаты поиска в Google мало что сообщают о том, какие языковые варианты являются правильными, а какие – нет; зато они предоставляют данные об узуальном употреблении.

Необходимо, однако, помнить, что Google – в первую очередь поисковая система, а не инструмент для лингвистов, и его применимость для языковедческих исследований весьма ограничена. Количество результатов, выдаваемых по тому или иному запросу, само по себе не является значимой или точной величиной: часто достаточно перейти на следующую страницу, чтобы сообщаемое пользователю число найденных совпадений изменилось в несколько раз (в отдельных случаях – в несколько сотен или тысяч раз). Кроме того, часть найденных сайтов могут содержать дубликаты одного и того же текста или цитаты одной и той же фразы.

Более существенным вопросом, впрочем, является методологическая несостоятельность сопоставления числа результатов в поисковике. Поисковые системы не различают и не могут различать тексты разных стилей, не разграничивают тексты, созданные носителями и не-носителями языка, не учитывают возможное наличие в тексте опечаток, ошибок предиктивного ввода и т.д. Другая особенность Интернета как лингвистического медиума состоит в использовании специфического сленга (т.н. netspeak) и контаминации его элементами даже текстов, выходящих за рамки традиционно ассоциируемых с этим сленгом жанров и среды общения (т.е. блогов, форумов и т.п.). Кроме того, относительная анонимность Интернета затрудняет учёт социолингвистических факторов. Таким образом, результаты поиска в Google или аналогичной поисковой системе в своём первоначальном виде, без последующей ручной обработки, часто не отвечают актуальным для конкретного исследования критериям отбора материала.

В то же время, было бы неверно утверждать, что поисковые системы в принципе непригодны для использования в лингвистических исследованиях. Принципиальные ограничения поисковиков могут оказаться несущественными для ряда задач. Например, для исследования, объектом которого выступает английский как «глобальный язык», различение носителей и не-носителей языка и учёт многообразия его диалектов представляется несущественным. В других случаях, частичный отбор результатов возможен за счёт ограничения поиска одним сайтом (например, books.google.com для изучения печатных источников) или одним национальным сегментом Интернета. Функция поиска по дате или временно́му диапазону может быть полезна для исследования диахронического аспекта языка: хотя сам Google существует около 15 лет, в его базе проиндексированы книги и периодика разных годов издания за период более двух столетий. В любом случае, самым надёжным способом использования поисковиков является ручная проверка каждого отдельного результата.

Во многих ситуациях, однако, более целесообразным представляется использование инструментов, специально предназначенных для лингвистических исследований, или совместное использование таких инструментов и поисковой системы. Во втором случае более традиционные методы могут быть полезны для верификации результатов анализа данных, полученных из поисковика. В частности, такой способ используется при исследовании метакоммуникативных единиц современного разговорного дискурса.

Читайте также

0 комментариев на тему "Использование поисковых систем в лингвистических исследованиях"

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *