Как мы ищем коварные слова

Часть 1. Сложные слова

Каждому из нас иногда попадаются незнакомые слова. Некоторые из них интуитивно понятны, другие же приходится искать в словарях или гуглить, чтобы понять, о чем речь.

На первый взгляд, чтобы найти такие непонятные слова, достаточно взять достаточно большой сборник текстов (корпус) и подсчитать частоту встречаемости всех попавших в эти тексты слов. Тогда все редкие слова будут непонятными (или по крайней мере незнакомыми), а частотные — всем хорошо известными. Но, вопреки интуиции, это не так.

Конечно, это верно для самых распространённых слов (например, входящих в список Сводеша). Но эмпирическая закономерность, называемая законом Ципфа, гласит: если упорядочить все слова большого корпуса по частоте, то частота слова в списке окажется приблизительно обратно пропорциональной его порядковому номеру. Так, например, выглядит график частоты слов русской Википедии:

График для частот слов из статей русской Википедии, упорядоченных по убыванию частотности, с порядковыми номерами от 3 до 170 (источник: Википедия)

Таким образом, подавляющее большинство словоупотреблений в любом корпусе текстов приходится на одни и те же слова, а частоты остальных различаются достаточно мало, причём нередко на это распределение влияют отдельные тематические книги. Например, в Национальном корпусе русского языка (одном из крупнейших корпусов русскоязычных текстов) слово конунг встречается 1100 раз, а, скажем, бегемот — всего 813 раз. Всё дело в одной-единственной книге Бориса Васильева «Вещий Олег», в которой это слово встречается целых 841 раз! А в Деткорпусе слово топчан в 100 раз частотнее слова мем.

Подробнее о нашем исследовании, связанном с созданием Корпуса текстов нового поколения, который призван отражать пассивный словарь подростков, можно прочитать здесь.

Выходит, автоматический поиск в тексте незнакомых читателю слов — не самая очевидная задача, и пользоваться одной лишь частотностью в каком-либо корпусе для её решения недостаточно. Правда человек, столкнувшийся с незнакомым словом, без труда найдет его значение в словаре или погуглит. Куда хуже ситуации, когда слово лишь кажется знакомым, а на самом деле значит совсем не то, о чём подумал читатель. В таком случае понимание конкретного эпизода или даже заметной части текста может быть значительно искажено — это особенно неприятно для учебной литературы. Такие обманчиво знакомые слова мы назвали «коварными».

Часть 2. Коварные слова

Искать такие слова непросто. В случае с неизвестными словами можно просто дать группе участников эксперимента прочитать большой текст и попросить отметить все слова, которые они видят впервые. А как узнать, что человек понимает какое-то слово не так, как оно определено в словаре?

Вообще говоря, изменение смысла слов — непрерывный процесс. Например, слово нелицеприятный в словарях означает ‘беспристрастный, справедливый’, а теперь всё чаще употребляется в значении ‘неприятный, обидный’: с 2000 года в НКРЯ таких употреблений не менее четверти, например: По всем правилам чиновничьего этикета спикер губернской думы ― второй человек в области ― просто обязан был сразу сообщить о нелицеприятных фактах первому лицу [Сергей Романов. Парламент (2000)]. Менее очевидные примеры таких изменений можно обнаружить, если открыть Словарь неправильностей русского языка Долопчева, опубликованный в 1909 году. Очень многие из тех значений слов, которые объявлены в нем неправильными (и даже те, против которых, как отмечалось, особенно протестовали «знатоки языка В. Даль и Я. Грот»!), вполне прижились и вытеснили исторически более корректные. Так, слово обыденный, обозначавшее по мнению автора словаря не что иное, как ‘однодневный, сделанный в течение одного дня’, сегодня нам известно только в «неправильном» значении ‘обиходный, повседневный’.

Фрагмент «Опыта словаря неправильностей в русской разговорной речи» (Долопчев, 1909)

Трудно поймать тот момент, когда одно значение слова вытесняется другим. Почти случайно мы обнаружили, что прямо сейчас похожий процесс происходит со словом форсить. Здесь ситуация даже интереснее: не просто сдвиг значения, а одно слово сменяется другим, пишущимся так же, но имеющим другое ударение. Этот глагол (образованный от заимствованного из французского языка существительного форс) с ударением на второй слог впервые фиксируется в словаре Даля (добавление И. А. Бодуэна де Куртенэ 1903 г.) и затем последовательно приводится словарями с толкованием ‘держаться с форсом, важничать, выставляя что-л. напоказ; фасонить’ (Большой толковый словарь). При этом в последние годы распространяется сленговый глагол форсить, заимствованный из английского языка, с ударением на первый слог: ‘продвигать что-либо, прилагать много усилий к тому, чтобы сделать известным, популярным, постоянно предлагать для обсуждения’ (Словарь языка интернета). Мы провели онлайн-опрос, в котором приняли участие более 1500 участников, и обнаружили прямую корреляцию между возрастом респондентов и тем, как они читали это слово: форси́ть или фо́рсить.

Эксперимент «форси́ть или фо́рсить»: зависимость от возраста

Но как измерить коварность, а главное — как найти коварные слова?

Часть 3. Коварные слова и где они обитают

Коварность слова мы определили так: это произведение доли респондентов, назвавших слово знакомым, на долю тех из них, кто на уточняющий вопрос о его значении дал неверный ответ.

Сначала мы провели большой опрос школьных учителей и получили список слов, которые их ученики понимали неправильно. Затем коварность этих слов и некоторых других, добавленных по собственным наблюдениям, была измерена экспериментально: участники экспериментов должны были указать степень знакомства со словом, а затем выбрать наиболее подходящий для него контекст или наиболее точное определение. Всего мы исследовали коварность 236 слов.

Варианты несловарных значений слов мы придумывали вместе со школьниками-участниками программы «Лингвистика» Образовательного центра «Сириус». Так появились на свет баргузин как сорт арбузов, двоюродная шумовка из Казани, огромный замшевый камень. Особенно часто участники опросов выбирали как правильный вариант фразу Моя мать была зазнобой, поэтому всегда носила с собой шаль.Одним из самых коварных слов оказалось слово зябь. Больше 75% респондентов назвали это слово знакомым, но правильный вариант значения выбрал только каждый пятый из них. По-видимому, на выбор значения в первом случае (‘холодная, промозглая погода’) оказало влияние современное значение слов зябнуть, зябко, а во втором (‘колебание воды под действием ветра’) — похожие по написанию и звучанию слова зыбь и рябь, как раз и обозначающие мелкое волнение на поверхности.

Выбранные респондентами ответы (зелёным выделен правильный вариант)
Заявленное знакомство со словом зябь

Самыми коварными оказались слова контроллер (коварность 0.69), органичный (0.64) и зябь (0.60). При этом среди нековарных слов оказались как распространённые, хорошо известные читателям слова (например, слова лес, море, небо, дерево, снег, коварность которых не превысила 0.01), так и узкоспециализированные и устаревшие слова, практически не известные респондентам (например, деряба; однако следует отметить, что данное слово добавлено в выборку как содержащееся в учебнике русского языка для начальной школы).

Слова, коварность которых была измерена экспериментально

Мы обнаружили, что почти всегда коварность слова связана с его внешней близостью к другим, более известным языковым единицам — словам, морфемам и словообразовательным моделям. Изучая полученные результаты, мы выделили несколько гипотетических механизмов возникновения коварных слов.

Во-первых, респондент может смешивать значения менее и более частотных слов, схожих по написанию и/или звучанию (такую схожесть удобно оценивать при помощи расстояния Левенштейна или фонетических алгоритмов, например, Metaphone). В части случаев респонденты осознавали, что их ответы относятся не к данному в опросе слову, а к другому, схожему с ним, что видно по оставленным комментариям.

Во-вторых, слова со сложной внутренней формой могут ввести читателя в заблуждение. Здесь мы выделили две крупных группы слов: те, в которых носители выделили правильный корень, но по каким-то причинам не смогли верно интерпретировать слово целиком, и те, в которых обманчивая внутренняя форма вызвала ассоциации с корнями из другой смысловой области. Первую из перечисленных групп мы разделили на три подгруппы по типам неверной интерпретации: сложные слова с неправильно определённым производящим сочетанием (нелицеприятный, честолюбивый), слова с непрозрачной внутренней формой (зазноба, зябь) и слова с неверно понятой структурой семантических компонентов (перелесок, органичный).

Различные причины коварности

А что дальше?

Прямо сейчас мы продолжаем наше исследование. Среди целей на ближайшее будущее — пополнение базы слов с измеренной коварностью, а также доработка модели ментальных соседей слова — тех самых, схожесть с которыми делает слово коварным. Подробнее о ментальных соседях слова можно прочитать здесь. А ещё вы можете помочь нам, поучаствовав в опросе.