Охотники за словами

27.12.2012 15:52:52

Узнать о вас даже то, о чем вы давно забыли, и перевести эту информацию на любой язык мира, найти вам семиногого осьминога о двух головах, а заодно написать сказку или футбольный репортаж — эти люди могут и не такое. Над чем сейчас трудятся компьютерные лингвисты, рассказал «Деталям мира» заведующий кафедрой компьютерной лингвистики РГГУ и ФизТеха, директор по лингвистическим исследованиям компании ABBYY Владимир ИНТЕРВЬЮ:

В.С.: Искусственный интеллект (далее ИИ — ДМ) — уж очень обширная область. Компьютерная лингвистика поуже — у нее свои методы, свой предмет изучения, хотя есть очень сильные области пересечения с ИИ. Я, безусловно, занимаюсь компьютерной лингвистикой.

К искусственному интеллекту в ABBYY я бы отнес, прежде всего, методы распознавания, методы машинного обучения. Но фактически те методы, которые были созданы для распознавания, так или иначе перенесены у нас и в компьютерную лингвистику. Но я все-таки больше связан именно с компьютерной лингвистикой, с тем, что может быть выражено, скажем так, не математическими формулами и системами уравнений, а формальными описаниями лингвистических структур.

В.С.: Лингвистика и сама по себе, по крайней мере, очень существенная ее часть, стремится к точному «негуманитарному» описанию языковых фактов. Так, в рамках лингвистики были разработаны некие модели, формализмы, которые затем были перенесены, например, в математическую лингвистику. То есть в науку, раздел математики, которая занимается не естественными языками, а формальными. Например, знаменитая классификация языков, которую предложил Хомский в свое время, лежит в основаниях теории компиляции языков программирования.

Не только. Например, у вас есть картина. Когда вы должны описать, что на ней находится, вы превращаете ее, фактически, в линейный текст, разбивая то, что вы видите, на последовательность отдельных предложений. Существуют стратегии такого разбиения, это отдельная и очень сложная задача. И наоборот, если у вас есть текст, вы можете решать обратную задачу: построить изображение, соответствующее этому тексту, восстановить пространственные отношения между описанными в тексте объектами. Например, у вас написано: «На столе стоит чашка. Рядом с чашкой — кружка. Слева сидит симпатичная девушка, а напротив - молодой человек в очках очень интеллигентного вида». Когда мы слышим или читаем, что на столе стоит чашка, мы понимаем, что здесь есть пространственные отношения между столом и чашкой, что чашка сверху, стол — снизу, а не наоборот. Но это только одна маленькая деталь. Подумайте сами над другими деталями, скрытыми в этом простейшем тексте. И мы должны всю совокупность деталей превратить в картину мира и показать ее. Это означает, что уже должна быть система, в которой зафиксированы не просто языковые отношения, а уже понятно, что такое стол, что на столе есть разные объекты, как они располагаются, как относительно стола и друг друга сидят люди. И основная проблема здесь в том, что если семантика языка — это нечто универсальное, то те картинки, которые мы, допустим, должны построить по этим текстам, требуют описания соответствующих фрагментов мира.

В.С.: Да. Кстати, в свое время в аспирантуре я занимался генерацией текстов. Мы тогда занимались представлением знаний, и было интересно, как из знаний можно порождать текст. Например, мой научный руководитель Евгения Тихоновна Семенова занималась со студентами совершенно чудесными вещами — генерацией волшебных сказок. Это было страшно популярно на факультете в то время. И была написана куча популярных статей. Поспелов, Гаазе-Рапопорт и Семенова втроем написали книжку о принципах генерации сказок, основываясь на идеях структурного фольклора. У них было достаточно хорошее формальное описание структуры волшебной сказки, взятое у Проппа. И, соответственно, можно было уже решать такую задачу: у вас есть база знаний, в которой есть герои, есть модель сказки — давайте попробуем сделать реальный текст.

В.С.: Тут надо понимать, что структура отношений в этом мире везде разная. Волшебная сказка — одна структура отношений, футбольный матч — другая. Я на недавней конференции европейской видел систему, которая генерирует тексты спортивных репортажей. Например, футбольный матч. Где здесь задача компьютерной лингвистики и искусственного интеллекта? С одной стороны, вы должны распознать то, что происходит на экране. Очень сложная задача, которая относится, безусловно, к искусственному интеллекту. То есть, нужно на общем фоне распознать ворота, разметку поля, движение игроков, и каждого игрока идентифицировать. Серьезная задача, но вполне постижимая. Есть ведь и более сложные.

Из суммы распознанного на картинке получается динамическая картина происходящего. Она нелинейная, потому что все объекты одновременно движутся. А дальше начинается то, что делает каждый репортер — он должен преобразовать видимое в текст. Он должен понять, как ему выбрать направление рассказа. Вот бежит игрок. Почему нужно говорить про того, а не этого? Потому что у него мяч. Возможно, и так. А, может быть, кто-то стремительно движется на возможную передачу, и именно он должен оказаться в фокусе внимания? Такой этап планирования структуры текста очень сложен, и для каждой области он свой. А уже потом в результате этого планирования появляется линейная цепочка еще не языковых структур, но уже зачатков того, что потом становится предложениями текста. Из этого уже можно делать текст. И задача компьютерной лингвистики начинается с того, что есть уже эти элементарные события, которые и нужно превратить в текст.

Или можно решить обратную задачу: у вас есть готовый репортаж — а теперь попробуйте нарисовать то, что там происходило.

В.С.: У нас есть рубрикатор, в котором около сотни рубрик, мы им пользуемся. Есть лексика, которая хорошо «кластеризуется». Но есть и такая, которая причудливо распределена по карте. Есть миграция населения, из-за которой возникают удивительные вещи. Например, одно и то же слово - отсветить (в смысле «скопировать на ксероксе») или отсветка (ксерокопия) встречается только в Литве и на Дальнем Востоке. И все. Почему так получается? Или совпадение, или кто-то завез из Литвы в Благовещенск, или наоборот. Так что просто так по регионам словоупотребления не делятся, получается намного более интересная карта.

В.С.: Есть. Например, из этого проекта фактически вырос следующий, которым сейчас занимаются совместно РГГУ, ABBYY и ФизТех — проект создания генерального интернет-корпуса русского языка (ГИКРЯ). Потому что для проведения исследований подобных нашему региональному, нам не хватает языкового материала. Просто поиск в интернете проводить нельзя, так как системы поиска все данные усредняют, и ничего не видно. Поэтому мы сейчас делаем систему, которая собирает тексты в интернете, подвергает их лингвистическому анализу, создает из этих текстов корпус с особой системой поиска и позволяет уже на основании этого корпуса делать скрупулезные исследования. В том числе можно будет сделать существенный шаг вперед в изучении региональной лексики, потому что у нас будет новый инструмент.

В.С.: Потому что нам весь интернет не нужен. В нем есть много вещей повторяющихся и просто неинтересных для языкового анализа. Например, рекламы каких-нибудь технических устройств… Огромное количество такой информации в интернете есть, и она тоже интересна, но в небольшом количестве. Нас гораздо больше интересуют блоги, средства массовой информации…

Проект очень амбициозный, мы к нему относимся очень трепетно. Кроме того, он позволил нам дать студентам ФизТеха и РГГУ конкретный совместный проект в качестве учебного. Этот проект — хороший пример того, как компьютерная лингвистика и лингвистика соединяются в едином процессе.

В.С.: Наша компания — наверное, крупнейший в России работодатель для лингвистов. Но не тех, у кого в дипломе написано «лингвист», а тех, кто занимается исследованием языка, как универсальной системы. У нас таких людей выпускают только в двух городах — Москве и в Санкт-Петербурге. И существенную часть этого выпуска мы себе забирали. Сначала мы активно на процесс учебы не воздействовали, но потом… Понимаете, абитуриенты часто приходят в лингвистическое учебное заведение совсем с другой целью. Какая-нибудь милая девушка, которая хочет разговаривать свободно на иностранном языке, приходит за этим в лингвистический вуз. И если она при этом разумная, она пробивается через достаточно сложный экзамен. Но все равно ее интересует не система языка, не язык как объект, а язык как инструмент для решения других задач: перевод, преподавание, бизнес и т.п.

Лингвисты — люди, которых интересует язык как объект. Таких людей мало. А тут еще появляется компьютерная лингвистика какая-то. И здесь нужны не просто лингвисты, а лингвисты, склонные к созданию инженерных устройств. Найти таких лингвистов среди выпускников вузов очень трудно. И вузы это стали понимать, и мы стали понимать, что нужно активно воздействовать на процесс. Поэтому наш приход в РГГУ и МФТИ — это попытка сделать так, чтобы появились специалисты нужной нам компетенции. Потому что ситуация с компьютерной лингвистикой в России очень сложная. Вот только один пример: недавно проходила крупнейшая конференция европейских компьютерных лингвистов (EACL). Двести докладов, а докладчиков, указавших в качестве своей страны Россию — один (и я при этом знаю, что у докладчика научный руководитель — испанец).

В России есть компании, которые разрабатывают лингвистические технологии: Яндекс этим занимается, мы, Mail.Ru и другие вполне достойные проекты. Но это все коммерческие компании, не их задача заниматься наукой. Наукой должны заниматься университеты. А университеты выпускают просто лингвистов, которые к нам приходят и только у нас начинают заниматься компьютерной лингвистикой. Это неправильный процесс, его нужно сместить обратно в вуз. И тогда будут появляться российские научные работы в этой области, молодежь поедет на конференции — будет нормальный процесс, которого сейчас нет.

Вот вчера, когда я читал лекцию про компьютерную лингвистику в Политехническом музее, я был просто потрясен, как много пришло слушателей. И сам музей тоже был удивлен — не ожидали такого. Кажется, мы перекрыли рекорд посещаемости для лекций по лингвистике, который был установлен на выступлении Максима Кронгауза, директора Института Лингвистики РГГУ — человека очень популярного. Когда мы с Максимом планировали этот цикл лекций и обсуждали, сколько человек может прийти, то решили, что области занятий новая, и если придут сто человек, то это будет очень здорово. А вчера было под триста человек, очереди в кассу, да еще и транслировали куда-то… Это означает, что тема компьютерного анализа языка стала снова интересной. В советские годы, например, о ней писали регулярно «Химия и жизнь», «Знание - сила» — там были журналисты, интересовавшиеся естественным языком. Потом произошел слом в девяностых, люди ушли из журналистики, а новое поколение интересуется немножко другими вещами. И я все удивлялся - неужели не интересная тема. А тут вдруг выяснилось, что интерес-то колоссальный, просто люди не догадывались об этом.

В.С.: В 60-е годы тем, кто читал советскую научную фантастику, это было известно точно. Стругацкие — тогда это было очень популярно.

Так часто бывает. Так, например, сейчас происходит с нанотехнологиями. Все знают, что это такая мощная штука, но как это работает — не представляют. Вообще, так часто случается, что какое-то слово становится… грантоемким. В нашей области таким словом в какой-то момент стала семиотика. Или синергия, например. Или инновации, как сейчас. Полезные слова, которые помогают менять мир.

В.С.: В каком смысле?

В.С.: Лингвистическая работа никогда не может быть закончена, потому что язык меняется каждый день. Правда, профессиональная лексикография в сложном положении сейчас находится, потому что появляются доступные интернет-ресурсы. Словарные проекты очень дорогие. Вот представьте себе: человек сидел, работал, выверял, потратил время на одну качественную статью. А дальше вступает в силу арифметика: время, потраченное на тысячу статей, в тысячу раз больше, чем потраченное на одну. А если словарь на сто тысяч слов? Поэтому когда появляется дешевая альтернатива, пускай даже среднего качества, делать профессиональные словари становится очень сложно. Поэтому мы стараемся максимально внедрять новые технологии. Ведь результат работы лексикографов порой получается не только дорогой, но еще и некачественный в силу ограниченного доступа к адекватной информации. И наши проекты типа LingvoPro — это проекты, в которых мы пытаемся внедрить методы компьютерной лингвистики в методики создания словарей. Но нельзя обойтись без участия обычных людей при составлении словарей, потому что они и генерируют этот самый словарный контент естественным образом. Когда переводчикам не хватает словарей в процессе работы, они обмениваются мнениями, что бы это слово могло означать. Они ходят на форумы, что-то спрашивают, им что-то отвечают — и возникает большой объем информации, который полезен, даже если на него набросить просто систему поиска. А чтобы сделать из этого словарную статью, нужно применять некоторые технологии.

Вот, собственно, этим мы и занимаемся — в проекте LingvoPro пытаемся получать качественные словари на этом новом, расширенном материале. Это очень интересная задача. Но когда мы с этим справимся, можно ли сказать, что работа лингвистов закончится? Нет, будут другие задачи. Например, соединение словаря с технологией семантического анализа, чтобы при переводе определенного текста вы получали из словаря не всю информацию, а только релевантную. Очень сложно прорываться через большой объем информации в словаре, особенно человеку не очень искушенному. И чем словарь лучше, тем в нем больше информации, и тем сложнее его читать.

Мы давно об этом думаем, и сейчас наши технологи уже таковы, что можно уже попытаться соединить два наших направления — лексикографического и семантического анализа. Я думаю, что здесь какие-то результаты появятся.

В.С.: Это очень трудная проблема. Упомянутый ранее Павел Русланович Палажченко был вдохновителем другого нашего словарного проекта. Дело в том, что он как переводчик много занимался именно как Вы сказали — «непереводимой игрой слов». Ну, не то, чтобы непереводимой, а непереводимой напрямую. Мы используем специальный термин «паремия» для некоторых таких непереводимых фраз. Паремия — это скрытая цитата. В отличие от явной цитаты, которую люди публикуют, собирают, которыми люди блещут в разговоре, скрытые цитаты вошли в фонд языка, в наш лексикон. Представьте себе лексикон как конструктор, из которого мы строим высказывания. В нем есть слово баранка, слово чашка, слово купить, а есть, например, фраза «бандитская пуля». Понимаете? «Что с вами? А, бандитская пуля…». Это уже для знающих. Это такая скрытая цитата. А теперь представьте себе, что вы переводите эту фразу на английский язык. Ведь так и переведут, напрямую.

Чтобы справиться с этой проблемой, мы задумали двуязычный англо-русский проект — сбор вот таких паремий. Ведь для того, чтобы правильно перевести их, их надо идентифицировать и соотнести друг с другом. У Палажченко был хороший пример: английское “the usual suspects”, вошедший в наши словари. Это, например, говорил Рейган, входя в зал для заседаний и видя там уже знакомых людей. Как это перевести? Самый близкий перевод, наверное — «знакомые все лица». Потому что паремию хорошо переводить паремией.

Фраза пришла из фильма «Касабланка» и стала скрытой цитатой в английском лексиконе. Такие объекты есть в каждом языке, и это колоссальная проблема для переводчика. Словари почти никогда не отображают паремии. Вот, собственно, поэтому мы задумали сделать такой словарь. Он по намерению похож на словарь русских городов, чтобы его собрать, надо обратиться к людям, переводящим тексты. То есть, такой вики-подход. Потому что из текстов автоматически извлекать их довольно трудно.

Без такого знания при переводе возникает колоссальное количество чепухи. Например, какой-нибудь роман начинается с фразы «Все смешалось в доме Ивановых». Каждый русский понимает, что это скрытая цитата. Но представьте себе, что перевод делает тот, кто Толстого не читал. В истории перевода очень много таких случаев, когда смысл теряется. И это сложная проблема как для ручного, так и для машинного перевода. Поэтому она нас интересует и как компьютерных лингвистов, и как лексикографов.

Тем более, что мы не можем пока даже оценить масштаб проблемы. Помните, про региональную лексику думали, что ее 15 слов, а их оказалось 5000, и это только лежащих на поверхности. А сколько на самом деле?.. Также и с паремиями. Думаю, там сотни тысяч единиц. Литература, фильмы… Это очень важно для понимания смысла текста, потому что ведь здесь непрямой смысл. Это моя любимая тема, и проект очень интересный, только вот времени на него не хватает. Все-таки его (коммерческая — ДМ) важность не такая, как, например, описание бизнес-терминологии.

Вот как раз об этом и думаем. Для этого студенты и нужны — реализовывать проекты с сильной научной составляющей.

В.С.: У нас обычно работа строится так: есть специалисты-лингвисты, которые занимаются, например, медицинской лексикой. Они сами не медики, но работают с медиками. Мы ищем специалистов-предметников, которые знают при этом языки, склонны к языковому анализу. Вот, скажем, в региональном проекте мы столкнулись со следующей проблемой: выяснилось, что имеются колоссальные региональные различия в названии биологических объектов. Травы, цветы, деревья, животные… И чтобы разобраться, нужен был, конечно, биолог. По крайней мере, он может навести порядок. Например, есть камыш и есть рогоз. И как выглядел тот камыш, который в «Шумел камыш, деревья гнулись…», зависит от того, где вы родились. А уж как называют всякие растения говорящие по-русски, живущие в других странах — вообще темный лес. Так что тут еще разбираться и разбираться.

Похожие новости

Культура и искусство
Евгений Кобылянский снимется в клипе Даны Релли
Известный продюсер, композитор Евгений Кобылянский станет героем клипа молодой певицы Даны Релли, на композицию, автором которой является сам же Евгений. 19.02.2014 18:51:18

Маркетинговые исследования