Разговор с лингвистом Александром Пиперски о корпусной лингвистике, феминитивах и вымирающих языках

Главный редактор ПостНауки Андрей Бабицкий побеседовал с компьютерным лингвистом, лауреатом премии «Просветитель» Александром Пиперски.

Это расшифровка интервью из рубки ПостНауки, а послушать его полностью можно здесь.


— Может ли лингвист сделать полезное открытие, написать статью про язык, про который вообще ничего не знает, если ему просто дать корпус текстов?

— Сейчас в компьютерной лингвистике это очень популярная тема: хочется, чтобы технологии, разработанные на материале известных языков, применялись к языкам совершенно неизвестным.

лауреат премии «Просветитель» Александр Пиперски

На недавней конференции Ассоциации компьютерной лингвистики был доклад о том, как можно научить людей выделять имена собственные в текстах на незнакомом языке при помощи компьютера. Посадить людей, которые не знают, например, амхарского языка — это официальный язык Эфиопии, — и сделать компьютерную программу, которая будет им транслитерировать тексты с амхарского и подсказывать, где написано «Берлин», «Александр Пушкин», «Майкрософт» и так далее. Этот алгоритм умеет подсказывать людям возможные точки, где надо обнаружить имя собственное, а дальше люди даже без знания амхарского могут узнать имя собственное где угодно.

Вся статистическая компьютерная лингвистика основывается на идее, что про язык надо знать как можно меньше. Google Translate работает с языком как с цепочкой символов, и совершенно неважно, английский язык заложен туда, монгольский или вьетнамский. При этом важно, чтобы было много текстов, переведенных человеком с английского на русский и с русского на английский. Он видит сопоставленные друг с другом тексты и выдает вполне разумные результаты, ничего не зная про язык в тех терминах, в которых мы про него знаем. Сейчас мы не учим компьютеры находить сказуемое и обстоятельство, выделять, кто является субъектом деепричастного оборота.

Машинный перевод начался с идеи, что перевод — это просто задача дешифровки. Все были воодушевлены успехом Алана Тьюринга, компьютеры стали применять для того, чтобы дешифровать непонятные последовательности символов. Один из основоположников информатики и теории коммуникации Уоррен Уивер пишет письмо выдающемуся ученому Норберту Винеру: «Я тут подумал и понял: перевод — это та же самая дешифровка». Давайте представим, что русский текст — это зашифрованный английский текст, и применим все те же методы. Винер тогда ответил, что это сложно осуществить. Потом машинный перевод пошел по аналитическому пути, воспроизводящему знания ученых о языке: проанализируем предложение, подлежащее, сказуемое. А оказалось, что это не очень продуктивно, а гораздо продуктивнее — просто операции над символами.

— Кто-нибудь занимается реверс-инжинирингом того, как работает Google Translate, понимает грамматические правила, которыми он пользуется?

— В полной мере никто. Можно проследить отдельные аспекты — например, поизменять отдельные формы слов и пытаться понять, что происходит. Но в целом понимания, что происходит сейчас внутри сложных нейронных сетей, нет. Чем дальше, тем больше компьютерная лингвистика отходит от понимания того, что происходит внутри. Когда был машинный перевод на основе правил, все было понятно: какие правила заложили, те он и применяет. Когда появился машинный перевод на основе статистики, стало менее ясно, но понимание сохранялось: слово «дом» много раз переведено как house, значит, будет house в переводе. Сейчас понятно все меньше.

— Нет ли какой-то философской идеи, что компьютер может угадать истинную грамматику?

— Есть даже не философская, а вполне научная идея, что можно научить компьютер описывать язык в привычных для нас категориях. Когда человек изучает язык, он просто получает на вход много-много текстов. Ребенок не знает, что такое творительный падеж или несовершенный вид. Он слышит-слышит текст и научается использовать формы, которые мы потом аналитически называем творительным падежом и несовершенным видом. Можно было бы научить компьютер делать то же самое. В идеальном мире это отменило бы полевых лингвистов, которые ездят описывать неизвестные языки. Мы просто запишем много-много текстов на неописанном языке и скормим их компьютеру, а он нам выдаст на выходе грамматику: части речи, падежи, глагольные формы. Такие эксперименты проводились, но результатов они пока не приносят.

— Вы все это описываете в смысле практической пользы, а в теоретическом смысле что интересно узнать?

— Мне-то самому гораздо интереснее понимать закономерности, которые за всем этим стоят. В этом смысле научная компьютерная лингвистика часто отходит от компьютерной лингвистики практической. Для ученого интересны вещи, которые поддаются объяснению. Например, та же задача выделять имена собственные в текстах: да, нейронная сеть прекрасно это делает, но было бы интереснее, чтобы результат работы алгоритма был представлен в виде дерева решений. Если ты увидел слово в середине предложения с большой буквы, сделай то-то, а если ты увидел слово в начале предложения, посмотри еще что-нибудь. Такие описания позволяют понять, как это устроено. Конечно, возникает философский вопрос: надо ли это понимать? Когда мы работаем с языком, что происходит у нас в голове? Мы же не мыслим в терминах: подлежащее, сказуемое, падеж и так далее.

— Как выглядит корпус, с которым работает корпусный лингвист?

— Корпусов разных языков существует много. Есть какое-то количество общедоступных корпусов с разной степенью удобства интерфейса. Например, для русского языка есть Национальный корпус русского языка, которым может пользоваться любой школьник — так все просто и понятно там устроено. Есть более профессионально-ориентированные ресурсы, которые предназначены для лингвистов, и обычный человек там просто ничего не поймет. Например, для русского языка есть огромный 14-миллиардный корпус, который называется ruTenTen — корпус текстов, скачанных из интернета. В нем можно смотреть, что люди понаписали в интернете, 14 миллиардов слов.

Лингвисты часто создают собственные корпуса, отбирая тексты по своим критериям. Сейчас у меня есть свой корпус, с которым я работаю, — это корпус эротических рассказов на русском языке, которые я выкачал со специально посвященного этому сайта. 20 тысяч рассказов, 40 миллионов словоформ, и они классифицированы по темам. Путем квантитативного анализа можно обнаружить много интересного.

Я составляю частотный список слов и смотрю, какие слова значимо чаще встречаются в той или иной категории, чем во всех остальных текстах. Например, если посмотреть на категорию гомоэротических рассказов, то там очень высоко стоит слово «невольно». Казалось бы, современное общество привыкло нормально воспринимать гомосексуальность, а у авторов эротических рассказов персонажи вступают в гомосексуальные отношения «невольно»: «Я на него посмотрел, и невольно у меня возникло желание». Корпусно-лингвистические методы показывают, что здесь это слово в три раза частотнее, чем по остальным текстам. Это наблюдение не столько лингвистическое, сколько социологическое, а корпусная лингвистика находится на стыке с социологией и вообще с изучением окружающего мира.

Пользователи пишут эротические стихи. Чем выделяется эротическая поэзия на фоне остальных текстов? Во-первых, там часто встречаются слова: коль, уж, ж, б и так далее. Вторая категория ключевых слов для эротической поэзии на русском языке — возвышенные поэтизмы: девица, страсть, луна. Третья категория слов, которые встречаются в поэтических текстах на сайте эротических рассказов в разы чаще, чем во всех остальных рассказах, — это матерные слова. Характерный признак эротической поэзии — чтобы там было сочетание девиц, месяцев и страстей с самым отборным матом в большой концентрации, чего в других жанрах гораздо меньше. В прозе матерных слов гораздо меньше.

Лингвисты более всеядны, чем традиционные филологи, но и здесь есть оговорки. Например, Национальный корпус русского языка отражает литературоцентричность нашей культуры. В этом корпусе сейчас собрано примерно 600 миллионов словоформ, практически вся русская классическая проза. Есть отдельно поэтический корпус, который включает в себя практически всю русскую поэзию золотого и серебряного века вплоть до середины XX века. Основной подкорпус Национального корпуса русского языка — примерно 300 миллионов словоформ — то, что призвано отображать русский язык за последние 250 лет. Возникает вопрос: а должно ли это на 40% состоять из художественной литературы? Верно ли, что художественная литература играет такую роль в языке? Не знаю. Вопрос не очень простой. Вечная мучительная история для любого корпусного лингвиста — как подобрать репрезентативный корпус, как собрать тексты, которые отражают то, что надо изучать.

О Национальном корпусе русского языка написано, что это репрезентативный, сбалансированный корпус, который представляет русский язык во всем его многообразии. Мы в это верим или нет? Понимаем ли мы, что какие-то типы текстов вообще проходят мимо нашего внимания? Например, предсмертные письма самоубийц или записочки, которыми обмениваются школьники на уроке. Это русский язык? Русский язык. Но где это собирать, непонятно. Это вечная проблема для обсуждения.

— Есть какие-то общие свойства больших корпусов русского языка, которые отличают его от других хорошо изученных языков?

— Особенности русского языка можно искать в связи с грамматической структурой. В русском языке довольно богатое словоизменение. Если мы возьмем глагол «сидеть», у него огромное количество форм: сижу, сидишь, сидел, сидевший, сидевшими… Можно их объединить в одну таблицу спряжения с сотней форм. Для английского языка, например, такая табличка будет гораздо меньше: глагол sit будет иметь меньше десятка форм. Чтобы увидеть все формы русского слова, мы должны собрать огромное количество текстов — гораздо больше, чем для того, чтобы увидеть все формы английского слова. Это ставит перед нами интересный вопрос: как человек, говорящий на русском языке, все это осваивает в детстве? Никто из нас не слышал сразу всех форм одного глагола, но тем не менее мы как-то умеем их строить.

Надо каким-то образом понять, как устроены механизмы обучения в ситуации, когда в корпусе, с которым мы сталкиваемся, осваивая язык, встречается гораздо меньше форм, чем мы можем дальше породить. Недавно вышла интересная статья исследователей из Университета Тромсё в Норвегии и Высшей школы экономики в Москве — Лоры Янды и Франциса Таерза. Они строили нейронную сеть, которая обучалась для русского языка по примерам из не очень большого корпуса текстов. Оказалось, что такая модель для языка с грамматической структурой, как у русского, гораздо лучше обучается в условиях неполных данных. Когда мы разные слова слышим не во всех формах, мы каким-то образом хорошо умеем достраивать их. Это гораздо лучше, чем если бы мы слышали мало слов, но их все во всех формах. Это отличает русский язык от того же английского.

Мы всю жизнь совершаем работу по угадыванию и достраиванию, а задача науки состоит в том, чтобы разобраться, как это работает.

— Кто-то изучал, как сейчас распространяются феминитивы?

— Сложно понять, насколько широко распространяются новые формы за пределами узкого круга людей, которые в этом заинтересованы и это обсуждают. Я не уверен, что широкие народные массы к этим дискуссиям вообще имеют отношение. Мне кажется, что это узкая тема для узкого круга людей, которым действительно интересно это обсуждать и которые становятся пионерами на этом пути. Те, кто обсуждает феминитивы, надо ли говорить «эксперт» или «экспертка», — это в основном люди, которые связаны с порождением текстов в уважаемых источниках: СМИ, медиа, радио. Если в этой среде начинается обсуждение, оно выкатывается дальше и становится шире. Если по радио начнут говорить «экспертка», то первые полгода это радио будет получать шквал возмущенных комментариев, потом всем это надоест, и все привыкнут к слову «экспертка».

Когда я сталкиваюсь с дипломными работами или магистерскими диссертациями, каждый раз с интересом смотрю, как девушки пишут на титульном листе: работа студентки или студента. Интересно было бы посмотреть, меняется ли это с годами, а если да, то в какую сторону.

— Можно ли попытаться предсказывать, какая словоформа имеет больше шансов на закрепление, а какая нет?

— Возьмем слова «студент» и «студентка». Когда мы перешли на болонскую систему, появилось слово «магистрант», от него очень легко образуется феминитив «магистрантка». А с «авторкой» гораздо сложнее. Почему «авторка» гораздо хуже, чем «магистрантка»? Потому что суффикс «ка» легко присоединяется к основам, которые имеют ударение на последнем слоге, и гораздо хуже к основам, которые имеют ударение не на последнем слоге. Это общеязыковая закономерность. Отчасти битва вокруг слова «авторка» связана с тем, что идея всюду присоединять суффикс «ка» противоречит тому, где он бывал до того. «Студентка» была, «большевик — большевичка» — та же самая история: ударение на последнем слоге. А если ударение не на последнем слоге, то примеров гораздо меньше, и поэтому «авторка» вызывает такое необъяснимое отторжение.

— Как мемы влияют на язык?

— Еще лет пять назад я бы твердо сказал, что в интернете происходят страшные вещи. Раньше можно было говорить, что есть язык интернета, а есть язык нормальный. Сейчас мы всю жизнь проводим в интернете, уже очень сложно говорить, что есть какой-то специальный язык интернета, который отличается от языка окружающего нас мира. Новые технические возможности активно способствуют распространению новых слов и мемов. Раньше инновации были гораздо более склонны становиться либо частью отдельного мирка для узкого круга говорящих, либо просто затухать. Есть некоторое количество крылатых слов, которые существуют веками. Цезарь сказал: «Пришел, увидел, победил», и вот мы двадцать веков то же самое повторяем вслед за ним. Грибоедов написал: «Счастливые часов не наблюдают» — мы повторяем эту фразу уже двести лет. А сейчас такие фразы становятся гораздо более краткоживущими, мемы последних лет сейчас уже невозможно вспомнить. Сказать: «А-ха-ха, что ты делаешь, прекрати» сейчас довольно нелепо. Какой-то Карл был, которого вставляли в конец каждого предложения, а где этот Карл сейчас?

— Нет какой-нибудь системы уведомлений, что вы проснулись утром, а вам из корпуса присылают письмо: «За вчерашний день появилось 30 новых словоформ»?

— Нет, хотя действительно есть попытки создания так называемых мониторинговых корпусов, которые бы собирали каждый день, например, новости или посты в социальных сетях и отбирали что-то новое и неизвестное. Всегда не очень понятно, где искать. Интересно создать корпус, который каждый день будет скачивать миллион текстов из социальных сетей и это искать, но готового решения я пока не знаю. Тем более что социальные сети, к сожалению, лингвистам часто сопротивляются и борются со скачиванием. Попробуйте что-нибудь скачать из Facebook — это, к сожалению, довольно непросто.

— Как будет изменяться количество языков в будущем?

— Количество языков будет изменяться в сторону уменьшения. В мире каждые две недели вымирает по языку, всего в мире 7 тысяч языков. Если мы посчитаем, каждые две недели по языку, 25 языков в год, значит, за триста лет все и вымрут — это так не работает. Моя любимая аналогия здесь — история с фамилиями. Например, в Корее фамилии существуют очень давно. Есть некоторый набор фамилий, и все получили фамилию, дальше фамилии вымирают, новые не появляются. Условно говоря, половина людей имеют фамилию Ким, еще 25% имеют фамилию Ли, еще столько-то процентов — фамилию Пак. А когда-то это была разветвленная система, и было очень много разных вариантов, но мелкие фамилии повымирали. С языками будет происходить то же самое.

Мелкие языки уступают место крупным, потому что людям экономически невыгодно говорить на языке одной деревни, на нем нельзя получить образование. Постепенно мир будет сменяться в сторону того, что некоторое количество крупных языков в свете глобализации все собой поглотят. Это произойдет не скоро, не на нашем веку.

С другой стороны, может быть и что-то неожиданное. Например, компьютерная лингвистика может сделать на этом пути что-то революционное. Если окажется, что мы можем говорить на своем языке через интерфейс «мозг — компьютер» непрерывно — в том смысле, что мы можем говорить на своем языке, а другой человек, говорящий на другом языке, будет нас полностью понимать, — и если технологии машинного перевода достигнут такого эффекта, то окажется, что это все нерелевантно. Проблема с тем, что на удмуртском нет университетского образования, перестанет существовать, потому что я буду говорить по-удмуртски, а вы вокруг будете слышать тот язык, который вам хочется. И тогда удмуртскому языку ничего не грозит.

Нам с вами повезло, что мы разговариваем на одном из тех 103 языков, которые есть в Google Translate. Для русского языка, я думаю, эта проблема действительно гораздо меньше, чем для маленьких языков. Можно ли технологии, разработанные для больших языков, легко портировать на малые языки? Сейчас этим много кто занимается в компьютерной лингвистике. Если быть технооптимистом, можно надеяться, что мы сможем говорить на мелком языке нашей деревни, а дальше технологии справятся за нас.