Корпус нового поколения

Что такое корпус нового поколения?

Корпус нового поколения — это корпус текстов, близких подросткам.

Каков объём корпуса?

Корпус регулярно пополняется. Сейчас в нем более 6 млн словоупотреблений.

как получить доступ к корпусу?

Пока с корпусом можно работать через Телеграм-бота.

Помогите нам с исследованием: опрос о том, что вы читаете (займёт не больше нескольких минут)

О Корпусе

Мы начали создавать корпус с участниками программы «Лингвистика» в Образовательном центре «Сириус» в октябре 2020 года в рамках нашего нового проекта «Откуда мы узнаём слова?». Наша проектная группа провела опрос среди респондентов 13-19 лет, из каких источников они узнают новые слова и какие тексты читают и слушают в течение дня. Параллельно с этим мы исследовали существующие корпусы и пришли к неутешительному выводу — крупные корпусы художественной литературы и публистистики, даже направленные на детские книги, не дают возможности хорошо оценить распространённость слова в пассивном словаре подростка. Для того, чтобы лучше понимать, какие слова известны респондентам-школьникам, а какие — вряд ли, мы начали создание Корпуса текстов нового поколения, в который войдут тексты книг, постов в соцсетях, песен, субтитры к фильмам и сериалам и даже некоторое количество анонимизированной личной переписки. Мы регулярно пополняем корпус, к сегодняшнему дню его объём достиг более 6 млн словоупотреблений, которые распределены по источникам так:

  • Книги: 4 517 537 словоупотреблений
  • Субтитры к фильмам: 610 982 словоупотребления
  • Посты ВКонтакте: 430 808 словоупотреблений
  • Комментарии ВКонтакте: 547 028 словоупотреблений
  • Переписка: 21 923 словоупотребления
  • Песни: 25 323 словоупотребления

Подробнее о первом этапе создания корпуса тут.

Участники проекта «Откуда мы узнаём слова?» на октябрьской лингвистической смене в Образовательном центре «Сириус», составители Корпуса нового поколения, 2020 г.

Список источников


Вы также можете скачать таблицу со списком всех источников и метаразметкой: