Лингвисты Тронд Тростеруд и Джек Рютер: «Главная задача - начать писать тексты в электронном виде на родных языках»
В Сыктывкаре презентовали электронный коми-русский словарь. Инновационный для Коми продукт разработала Межрегиональная лаборатория информационной поддержки функционирования финно-угорских языков при Коми республиканской академии государственной службы и управления совместно с иностранными разработчиками. Из Финляндии и Норвегии в Сыктывкар прибыли профессор университета норвежского города Тромсё, директор Центра «GIELLATEKNO» Тронд Тростеруд и ученый Джек Рютер. Лингвисты рассказали БНКоми о своей работе в Коми.
Фото Дениса Речкина
- Тронд, какие задачи вы решаете в лаборатории?
- Мы создаем анализаторы для коми языка, чтобы компьютер знал основные словоформы и функции слова в предложении. Зачем это нужно? К примеру, у нас в Норвегии сейчас ежедневно выходит газета на саамском языке. Ежедневные выпуски стали возможны только после появления морфологического анализатора. Это основа для программы по правописанию на саамском языке. До этого газета также выходила, но реже, потому что без программы по правописанию на ежедневные выпуски просто не хватало времени. Согласитесь, что для вас, как для журналиста, очень важно, чтобы такие программы существовали. И если для русскоязычных СМИ такие продукты есть, в том числе и бесплатные, то для коми языка их нужно создавать.
- Кто в этом деле занят больше - программисты или филологи?
- И те, и другие, но на каждого программиста требуются приблизительно три филолога. Если уж мы занимаемся созданием словарей, то компьютер должен знать все тонкости языка.
- Какие финно-угорские языки уже сейчас свободно чувствуют себя в электронном пространстве?
- Что касается раскладки клавиатуры на родном языке, то их имеет если не половина, то добрая треть финно-угорских языков. В основном, в интернет вхожи так называемые большие языки - финский, венгерский, эстонский, еще саамский. Разработана удмуртская клавиатура. Раскладки клавиатуры для операционных систем Windows и Linuks есть для марийского и других языков. Но сегодня основной вопрос, который касается языков и электронного пространства, - это создание морфоанализаторов. В России в этой области первыми разработками были программы для марийского языка. Второй анализатор, после финского, я совместно с Йорма Луутонен создавал именно для марийского.
Бесплатные программы по правописанию и электронные словари для России — новое явление. Сейчас появляются продукты не только на русском языке, лично я сам создавал программы для тюркских языков в Калмыкии. Но признаюсь, что калмыцкий язык — легкий, создавать анализатор для него было не сложно.
- Как вам работается со специалистами нашей лаборатории?
- У нас в Норвегии есть подобный центр саамского языка. Как языковед, я очень рад оказаться в Коми и работать с лингвистами-экспертами высокого уровня. Это важно для меня, ведь я не хочу создавать компьютерные модели только как теоретик, я хочу слышать и знать живой язык. В таких языках, как, к примеру, маури, много коротких слов, без морфологии, поэтому для них не требуются сложные анализаторы. Коми язык — совсем другое дело, это язык очень емкий, и если уж мы занимаемся словарями, то компьютер должен знать все тонкости языка. Например, для коми языка компьютеру нужно объяснить правило чередования согласных, написать понятные для автомата алгоритмы. А представьте себе, что в коми языке одно слово может давать до пятисот словоформ! А ведь мы создаем законы, которые должна понимать машина.
- Как долго создаются готовые продукты?
- У меня расписаны планы на работу на ближайшие сто лет, но программу по машинному переводу можно создать за три года.
- И каков результат работы?
- Об этом лучше расскажет Джек.
Джек Рютер: Язык попадет в глобальную сеть. Как Тронд уже говорил, это способствует увеличению количества публикаций и средств массовой информации на национальных языках. Кроме того, это будет полезно тем, кто работает с переводами, тем, кто не имеет возможности писать на другом языке, — от журналистов до врачей. Я работал в Саранске шесть лет и знаю, что в Мордовском университете студентам надо печатать курсовики на эрзянском или мокшанском. Причем на этих языках печатать текст в три раза дороже, чем на русском.
- Как давно вы сотрудничаете с российскими регионами?
- В Россию я приезжаю каждый год приблизительно с 1992 года, в основном, занимаюсь созданием продуктов для малых языков. Месяц назад работал в Санкт-Петербурге, участвовал там в библиотечном проекте: газеты, изданные в начале двадцатого века, нужно сканировать и сохранять статьи в электронном виде, для этого компьютер должен распознавать текст. Когда мы снова приедем в Коми, еще не знаем, но в Россию мы вернемся через две недели, работать с тюркскими языками.
- Почему именно малые языки стали предметом вашей работы?
- В мире наблюдается такое явление: те, кто знает доминирующий язык, не обременяет себя тем, чтобы учить малый язык. Поэтому, чтобы услышать язык коренного народа, мне приходится немного хитрить и говорить, что я не знаю, например, русского языка в России. Только в этом случае у меня появляется возможность услышать, например, коми или марийский. Когда-то давно, когда я только приезжал в Финляндию, я жил в финской семье. В Хельсинки с тобой с радостью поговорят на английском, но я-то жил в маленьком городке. Конечно, там у меня был переводчик. Но, как говорится, у переводчиков своя правда. И порой возникали забавные случаи: я просил убрать в комнате, а перевод был таким: Джек сам уберется. Тогда я решил, что понимать язык нужно сразу, без переводчика.
- На каком языке вы общаетесь дома с семьей?
- Моя жена эрзянка, и мы дома говорим по-английски и по-эрзянски. А живем в Финляндии, это значит, что дети говорят и на финском. Каждый день мы используем для общения три языка.
- Тронд, у вас такая же ситуация?
- Да, у нас дома ежедневно звучат финский и норвежский. Но я скажу вам как лингвист, что грамматика важна вне зависимости от того, маленький это язык или большой. Как-то в Марий Эл я зашел в книжный магазин и на марийском языке не смог купить книгу. Оказалось, что продавщица не знает цифры по-марийски. Как я потом узнал, она марийка. Эта женщина выросла за пределами Марий Эл, где у нее не было возможности получать образование в школе на родном языке, и математика у нее преподавалась только по-русски. Сейчас национальные языки изучают в школах. Это хороший пример того, как изменилась политика в России. Поэтому в Сыктывкаре мне больше всего понравился памятник букве «ö», потому что это памятник букве, которая отличает язык коми и является одной из самых употребляемых букв коми языка.
- Джек, какая первостепенная задача сейчас стоит перед лингвистами и программистами в вашей деятельности?
- Главная задача - начать писать и собирать тексты в электронном виде на своих языках. Затем идет создание программ по правописанию, потом словарей, потом – это вопрос будущего – создается машинный перевод и потом аудио-переводчики. Переводчик, который мы создаем, будет лучше, чем гугловский, потому что наш лучше знает грамматику. Мы работаем еще и над возможностью поиска информации на коми языке в интернете. Сейчас, к примеру, если вы хотите найти информацию по интересующей вас проблеме на нескольких языках, то быстрее и полнее ее найдете на английском, меньше шансов, если она будет на русском, и вряд ли вы найдете ее в сети на коми. Пока компьютер не дает ссылок на статьи, которые написаны на коми языке. Над тем, чтобы изменить эту ситуацию, сейчас и работаем мы совместно с лабораторией.
- Тронд, будут ли разработаны программы по обучению финно-угорским языкам?
- Да, по принципу чата такие программы уже существуют, это когда люди учатся друг у друга. Но в будущем появятся программы, которые позволяют учиться у компьютера, когда машина корректирует ваше образование. Такая «обучалка» уже работает на саамском языке. Но выучить полноценно язык, общаясь с компьютером, все равно не получится, для этого нужно живое общение. Машина облегчает работу с языками, но не заменяет знание языка.
А коми грамматика - это так красиво!
Комментарии (8)
Позорище вы, иваны, родства непомнящие. На русском только на мате говорите, еще и коми угробить хотите.
Спасибо за отличное интервью с цивилизованными людьми.