メキシコ:UNAMが先住民言語の自動翻訳を可能に

メキシコ国立自治大学(Universidad Nacional Autónoma de México:UNAM)の応用数学・システム研究所(Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas:IIMAS)は同国における先住民言語の自動翻訳プログラムを開発した。世の中においてはDeepLやGoogle翻訳など多くの翻訳プログラムが存在するなか、先住民言語を自動翻訳するプログラムは皆無に等しかった。強いて言えばマイクロソフトがヘリテージプログラムの一環としてケレタロ州とユカタン州の大学と共同でOtomí(オトミ)語とMaya(マヤ)語の通訳ソフトウェアを開発していた。

メキシコの国立先住民言語研究所によると、メキシコには68の言語グループと364のバリエーションがある。メキシコ国内でそれらを話しているのは人口の6.5%で、多くの人が征服者たちが持ち込んだ言語であるスペイン語を利用している。それらが200年前にやってくるまで、この国ではナワトル(Náhuatl)語、マヤ(Maya)語、マヨ(Mayo)語、テペワ(Tepehua)語、テペワノ(Tepewano)語、ミヘー(Mixe)語などさまざまな先住民言語が使われていた。ヨーロッパからの侵入者たちはこの土地に住む人々が従来用いていた言語やそれと密着する文化を自らのそれに置き換えていった。

この国に限らず今や旧来から話されてきた言語の存在は絶滅の危機に瀕しており、国際連合教育科学文化機関(UNESCO)も先住民言語は2週間に1つの割合で消滅していると報告している。2003年にもロシア北部コラ(Kola)半島でアッカラ・サーミ(Akkala Saami)語の最後の話者が亡くなり、2008年には米アラスカ州でイヤック(Eyak)語が最後の話者の死去に伴い、消滅した。ラテンアメリカにおいても例えばブラジルに1500の言語が存在していたものの現在使用されているそれは181言語のみとなっている。なおそれらの使用人口はそれぞれ1000人にも満たない。メキシコにおいても例えばクアール語話の話者は2人(詳細はこちら)となっている。

今回自動翻訳ができるようになったのはウイチョル(Huichol)もしくはウィシャリカ (Wixárika)として知られる言語、オアハカ州で使われているアユク(Ayuuk)語、ドゥランゴ州のメヒカネロ(Mexicanero)語、メキシコ州のヨリノキ(Yorinoqui)語、ナワトル語である。

システム構築にあたっては人間の脳神経回路が情報伝達を行う仕組みをまねたニューラル機械翻訳が活用されている。これは神経回路網を人工ニューロンという数式的なモデルで表現したもの、つまりニューラルネットワーク(Neural Network:NN)を利用しており、これが先住民言語から特定言語への翻訳された文やデータを収集、自ら学習しながら単語の意味として正しい可能性の高い訳語を当てはめていく。システム設計において難しいのはある言語の文章を混同することなく別の言語に変換できるようシステムが実行すべき各プロセスにおいて特定の値を見つけることだという。アルゴリズムの中には適応しうるものもあるが、ディープラーニングを用いて処理する際にはモジュールや値が多数あることから専門的に計算する必要がある。

ウィシャリカ・コミュニティと関係を持つ学生のおかげで2014年から人工知能の技術者たちはこのプロジェクトを開始できたという。昨今では先住民社会と関係を持つ人間やIT技術者、ナワトル語やメヒカネロ、ヨエム・ノキなどを用いて仕事をする人々のボランティアも少しずつ増えてきたと言う。例えばIIMASの研究者が学生に対してマザフア族のためのシステム構築のためのアドバイスをしており、学生もMazahuAppというモバイルアプリケーションを開発している。

なお商用化にあたってはまだまだデータが足りない。商用システムでは数百万のコーパス(自然言語の文章を構造化し大規模に集積したもの)がある一方で先住民言語の場合1万程しかないからだ。データが多いほどにシステムの精度は高くなるがそれがまだ足りていない。データ量もさることながら、メキシコ先住民言語は口語が多く、その一方でどう表記されるかが決まっていないケースも多く、高精度化までの道のりを遠くする。例えばウィシャリカ語では形態素の助詞を持つ多数の単語で構成されているため、スペイン語的な観点から見ればフレーズでも、彼らにとっては1つの単語として扱われる。これはニューラルネットワークでは処理しづらいのだ。ウィシャリカ語のm’k’pa:pa ya p’-ta-ti-u-ti-wawi-ri-wa はスペイン語では「彼女はいつもトルティーヤを頼む」となる。

なお話し手や資料がほとんど残っていない言語については開発が遅れている。それは上述の通りシステムに必要となるデータ(先住民言語から特定言語への翻訳された文やデータ)が不足していること、また両言語の解釈が正しいかを検証できる人が少ないことによる。

アユクの話者でIIMASの研究員、そしてシステム開発に携わるサカリアス・マルケス(Delfino Zacarías Márquez Cruz)は自動翻訳機を持つことは、メキシコの人々が先住民言語の保存を支援するとともに、その利用の促進にも役立つと述べた。

公開されている自動翻訳サイトは以下の通り。
◆Wixárika
 http://turing.iimas.unam.mx/wix/

◆Ayuuk
 ウェブサイト構築中

 

 

参考資料:

1. UNIVERSITARIOS DESARROLLAN TRADUCTORES AUTOMÁTICOS DE LENGUAS INDÍGENAS
2. 新型コロナで先住民の希少言語が消滅の危機、ブラジル
3. 消えていくのではなく消されていくメキシコ先住民の言語
4. As technology like AI propels us into the future, it can also play an important role in preserving our past
5. 12 de octubre: La diversidad de lenguas indígenas de México
6. 世界で2680の先住民族言語が消滅の危機に 国連プロジェクト始まる
7. mixes.pdf – Gobierno de México

1 Comment

  • miyachan 01/08/2022 at 03:41

    メキシコの先住民語の話者は6.5%ですか。それでも、ざっと800万位人以上になる。世界有数ですね。先住民語で会話される先住民の村は、何か不思議で想像すらできません。言葉を自由に使い彼らとコミニュケーションできると楽しいでしょうね。いや、自分にとってはスペイン語の意思疎通が出来るようになることが先ですが、、、

    Reply

Leave a Comment

CAPTCHA