機械翻訳と人工知能(AI)

アーキ・ヴォイスのコーディネーターです。
さて、今週月曜の日経電子版に
人工知能を利用した自動翻訳の
進化が取り上げられていました。

「 自動翻訳なぜ急速進化
  2つのブレークスルー 」

 http://www.nikkei.com/article/DGXMZO12925810V10C17A2000000/
(日経の記事にジャンプします)

この記事を読むと、
機械翻訳はこれまで、下記、
3つの方法で発展してきた
ことがわかります。

(1)ルール翻訳

(2)統計翻訳

(3)ニューラルネット翻訳

人工知能がどのように
機械翻訳に関係しているのか、
弊社もビジネスとしても
気になる所です。

そこで今回は、人工知能の発展と
機械翻訳がどのように進化してきたかを
取り上げたいと思います。

——————————————

■ 人工知能と機械翻訳の発展 ■

——————————————

1.最近のGoogle翻訳

先の記事にもありますが、
Google翻訳の精度が最近、
著しく向上したと話題です。

特に昨年(2016年11月)、
ニューラル機械翻訳(Google Neural
Machine Translation system =「GNMT」)
という新たな技術が導入され、
既存の機械翻訳と比較して、
翻訳エラーが55~85%減少したそうです。

これまでと一体、何が違うのでしょうか?

Google翻訳のGNMTにはこんな特徴があります。

・ニューラルネットワークという
 脳神経系をモデルにした情報処理
システムを利用していること

・これまでは単語やフレーズを翻訳の
 単位としていたが、GNMTでは文章全体を
 ひとつの翻訳単位として捉えるようになったこと

・翻訳を行う過程で、AI独自の「中間言語」が
 生成され、言語A→言語Bの翻訳と、
 言語A→言語Cの翻訳を行えば、経験のない
 言語B→言語Cの翻訳も可能になるということ

ちょっとわかりにくいですよね。
論より証拠ということで、
実際にGoogle翻訳を試してみましょう。

有名なビートルズ「イエスタデイ」の
歌詞を取り上げてみます。
最初はこんな感じ・・・

 Yesterday, all my troubles seemed so far away
 Now it looks as though they’re here to stay
 Oh, I believe in yesterday

 Suddenly, I’m not half the man I used to be
 There’s a shadow hanging over me.
 Oh, yesterday came suddenly

上記の歌詞について、
CD(『HELP!』)では、
次のようになっています。
(内田久美子訳)

「昨日ははるかな彼方にあった苦悩が
 今日は僕のもとに居すわろうとしている
 ああ すべてが輝いていた――昨日

 不意に僕は今までの僕じゃなくなった
 暗い影が僕の上にのしかかる
 ああ 悲しみは突然やってきた――昨日」

上記、ちょっと意訳になっていますが、
味わい深い表現だと思います。

次に、英語の原文を
Google翻訳にかけてみます。
結果は下記のようになりました。

「昨日、私の悩みは遠く離れているようでした
 今は彼らがここにいるように見える
 ああ、私は昨日信じている

 突然、私は今までの男の半分ではない
 影が私にぶつかっている。
 ああ、昨日突然来た」

いかがでしょうか?
2節目の「今までの男の半分」とか
「影が私にぶつかっている」とかを
見ると、ちょっと厳しい感じがします、

とはいえ、1節目はかなりの精度で
日常言語を訳出できているのでは。
特に、1行目の「all my troubles」を
「私の悩み」としているのには感心しました。

2節目の表現が難しい理由は、
翻訳という行為の中に、
単に言語の意味の置き換えだけではなく、
経験値や一般常識が背景になっている
ことが挙げられます。

こうした事情は、
人工知能の発展を追うことで、
より理解しやすくなるのではと思います。
ですので次に、人工知能の発展と
機械翻訳がどのように進化して
きたかを見ていきます。

2.人工知能の発展と機械翻訳

さて、一口に「人工知能(AI)」と
言っても、いろいろなものが
思い浮かぶのではないでしょうか?

例えば・・・
掃除ロボットのルンバであったり、
囲碁や将棋のプログラムであったり、
検索エンジンであったり。

人工知能の発展と種類を分けるのに、
松尾豊『人工知能は人間を超えるか』
(2015年)がわかりやすかったので、
そこでの話をそのまま使わせて
もらいたいと思います。

人工知能の発展と種類は以下の4つに
分けることができるそうです。

・レベル1「制御」
 単純な制御プログラムを
 「人工知能」と称しているケース。
 例)単純な制御プログラム搭載の家電製品

・レベル2「探索・推論」(1960年代以降)
 古典的な人工知能。
 推論や探索を行ったり、多くの知識を
 ベースにする人工知能がこのレベル。
 例)将棋のプログラム、掃除ロボット

・レベル3「機械学習」(1990年代以降)
 機械学習を取り入れた人工知能。
 検索エンジンに内蔵されていたり、
 ビッグデータをもとに自動的に
 判断したりする人工知能。
 機械学習のアルゴリズムを利用する場合が多い。
 例)検索エンジン、パターン認識など。

・レベル4「ディープラーニング」(2010年代以降)
 ディープラーニング(深層学習)を
 取り入れた人工知能。
 機械学習をする際のデータを表すために
 使われる変数自体を学習するもの。
 例)多くの画像からネコを認識するなど。

上記だけだと何がなんだか、
という感じですが、松尾氏は
上のレベルをそれぞれ、アルバイト、
社員、課長、マネージャーに例えて
次のように説明してくれています。

言われたことだけこなすのは
アルバイト(レベル1)。
たくさんのルールを理解し
判断するのは一般社員(レベル2)。
決められたチェック項目に従って
業務を改善するのは課長クラス(レベル3)。
チェック項目それ自体まで自分で
発見するのがマネージャークラス(レベル4)。

上記のレベルは優劣ではなく、
単に役割の違いと思っていただけると
いいのではと思います。
他には、それぞれのレベルを
脳の部位に例える方もいます。
(大脳と小脳では役割が違うため)

冒頭の日経記事で、
機械翻訳はルール翻訳、
統計翻訳、ニューラルネット翻訳と
発展したことに触れましたが、
これが人工知能のレベル2~4に対応します。

まず、1960~70年代には、
人工知能のレベル2「探索・推論」が
推進され、エキスパートシステム
という知識を膨大に詰め込んで、
専門家のようにふるまうプログラムが
活躍しました。

この知見が応用された
機械翻訳の方法が
「ルール翻訳」です。
これは、予め、開発者が翻訳に
必要な文法などの規則をつくり、
それにそって翻訳が実行されます。

しかしイエスタデイの2節目を
思い出していただくとわかる通り、
翻訳という行為には、一般常識などが
背景にないとうまく訳すことができません。

たわいもない会話や、日常会話で
あればあるほど、文脈に依存していたり、
常識に支えられていたりします。
実は日常の一般常識は膨大な
知識量を背景としています。

(逆に、専門的な領域の会話だと、
 意味が一義的に定まるため、
 ルール翻訳が優れた結果を残します)

そこで1990年代に入り、
インターネットの出現とともに
発達したのが
「機械学習(Machine Learning)」
という技術です。
ここで、ウェブページのテキストを
扱うことのできる自然言語処理と
機械学習の研究が大きく発展しました。

そもそも機械学習とは、
人工知能における研究課題の一つで、
人間が特徴となるポイントを定義し、
それをもとに大量に流し込まれた
データを分析して学んでいくというものです。

その結果、
「統計的自然言語処理」と
呼ばれる領域が急速に進展し、
機械翻訳は「ルール翻訳」に代わって、
「統計翻訳」と呼ばれる方法が
主流となっていきます。

これは対訳のデータを大量に集めて
統計処理をすることによって、
訳文を生成します。

この時に、文法構造や意味構造は考えず、
対訳コーパス(=言語データ)を
大量に集めて、統計処理を行い、
翻訳規則や翻訳辞書に相当する
翻訳モデルを自動的に作成します。

統計翻訳は、学習する対訳データが
多ければ多いほど、翻訳の精度が
向上していく仕組みです。
「英語でこの単語の場合は
日本語のこの単語に訳される
確率が高い」といった具合です。

この機械学習から、
現在、Google翻訳に代表される
「ニューラルネット翻訳」
が出てきました。
これは、脳の働きを模した
ニューラルネットワーク
(神経回路網)による翻訳技術です。

この背景には、現在、
人工知能の世界で
最も注目されているブレークスルー
「ディープラーニング(深層学習)」
があります。

そもそもディープラーニングは、
2012年、トロント大学の
ジェフリー・ヒントン氏が中心になって
新しい機械学習の方法として
生み出されました。

(ちなみに、翌年2013年には
 ヒントン氏が設立した会社は
 Googleに買収されています)

このディープラーニングと
機械学習との違いは、
人間が特徴となるポイントを
与えなくても、コンピュータが
その特徴を見つけて学習していく、
というところにあります。

(先のレベル3と4、
 課長とマネージャーの例を
 思い出していただくと
 わかりやすいかと思います)

とはいえ、
現在のGoogle翻訳でも、
先のイエスタデイの歌詞は
まだちょっとぎこちない・・・

今後も機械翻訳の世界は、
さらに進化をするはずなので、
注目していきたいと思います。

以上、日経の記事にあった
機械翻訳の3つの流れ(ルール翻訳、
統計翻訳、ニューラルネット翻訳)を
人工知能の発展とともに見てきました。
今後も進展があれば、取り上げたいと
思います。