機械翻訳、人工知能(AI)の現状と展望


 まず、機械翻訳とはコンピュータープログラムを使って、ある言語を他の言語に翻訳すことである。翻訳は長年、語学に堪能であると同時に対象言語の使われている国や地域への造詣が深いことが必要な、人的資源に頼った専門職として考えられてきました。翻訳者に適任な人を探すにも、翻訳作業にもコストや時間がかかることが課題であったため、機械翻訳の導入が望まれていたのです。近年では、文書の翻訳だけではなくwebサイトの翻訳も必要になっており、大量の翻訳が短納期で求められるようになっています。そのため、機械翻訳の実用化や精度の向上が急ピッチで進められています。

 機械翻訳の始まりは50年以上も前にさかのぼります。1954年にアメリカのジョージタウン大学とIBM社が共同で機械翻訳の実験を行いました。当時の最先端のコンピューターを使った機械翻訳は、250の単語と6つの構文を使うルールベースを採用したもので、ロシア語から英語に翻訳された文章は、多くの人に衝撃を与えました。アメリカ政府が多額の研究予算をつけたことで、機械翻訳の実用化に向けた取り組みが始まったのです。

 その後、技術発展に伴って多くの改良が加えられ現在では商業ベースで利用される水準にまでなりました。背景には、ハードウェアの進化、大量の言語データの集積、音声認識で言語データを統計的にモデル化できるようになったこと、コンピューターが記憶に基づいて推論できるようになったことなどがあげられます。これに伴い翻訳の手法もルールベースから、統計ベース、そしてGoogle翻訳に代表されるようなニューラル翻訳へと進化していきました。

 2000年以降、機械翻訳の研究は急速に進みました。統計ベースの翻訳には、集積した翻訳データを元に類似した翻訳データの中から対訳を検出し、それを修正しながら翻訳を行う対訳メモリを使った方法と、集積した対訳メモリを使って統計的なモデルを学習し、自動的に翻訳を行う統計翻訳の方法があります。

 統計ベース以前のルールベースの翻訳では、翻訳を行う前に翻訳のルールの定義づけが必要であったため、多言語に対応することが難しく、開発コストもかさむことが課題でした。統計ベースの翻訳は、大量のデータの集積があれば、コンピューターにパターンを学習させることが可能なので、多言語に対応することができます。

 また、専門用語の翻訳が必要になる専門分野では、統計ベースの翻訳方法であれば、訳のばらつきもなく均一な翻訳が可能になります。しかし、日本語と英語のように文法構造が異なる言語間では、句の並びが異なるので翻訳の精度が低く、ポストエディットと呼ばれる後編集が必要でした。

 
 統計翻訳の弱点をカバーするものとして登場したのがニューラル翻訳です。代表的なGoogle翻訳は、そこにニューラルネットの学習アルゴリズムを導入することで、単語の意味だけでなく句や節の位置まで考慮した、これまでになかったパターンの翻訳も可能になっています。 統計翻訳は元になるデータ量がものをいうので、大量のデータを収集できるGoogleは非常に有利な立場にあるといえるでしょう。優秀な人材が多く集まっていることもアドバンテージです。従来の機械翻訳は精度が低いため参考程度にしか考えられませんでしたが、Google翻訳の登場で機械翻訳の業界は転換点を迎えたと言われています

注:ニューラル(神経)ネットワークとは
 ニューラルネットワークは、人間の脳の神経回路の仕組みを模したモです。 コンピュータに学習能力を持たせることにより、様々な問題を解決するためのアプローチです。 コンピュータは単純な処理を高速に行うことに優れており、その能力は人間のそれを遥かに凌いでいますが、他方、人間にとっては簡単な動作の手を動かしたり、物体を認識したりという処理はコンピュータにとっては 非常に複雑な手順を要し、苦手とする処理なのです。

そのようなコンピュータの苦手とする問題に対し、人間の脳のメカニズムをコンピュータ上で 人工的に実現することにより解決を図ろうとするアプローチが生まれました。
 ニューラルネットは人間の脳のメカニズムを模したものですが、脳のシステムを再現すること自体が ニューラルネットの目的ではなく、あくまで、問題解決の手段なのです

 しかし、いくら機械翻訳の性能が向上したとしても人の手による作業がなくなることはないでしょう。ニューラル翻訳になっても、翻訳された文の修飾関係が正しいかどうか、対象言語の文化的背景にまで気を配る人間(チェッカー)の判断は必要だからです。特に文芸作品や映画の字幕は、単なる言葉の置き換え作業ではなくオリジナルの世界観を損なわずに行う、創作活動でもあるので機械が担うには限界があります。こうした創作活動を担うプロフェッショナルな翻訳者の需要は益々増えるでしょうし、機械翻訳が活用できる分野でもポストエディットの需要は今後伸びてゆくと思われます。大きな変化を迎えている翻訳業界の今後の動向を見守る事が必要です。

 最も市場規模が大きいのは、契約書やマニュアル、特許明細などを各国語向けに翻訳する産業翻訳です。企業が翻訳を依頼する先としては、翻訳専門会社や翻訳者個人のほか、急速に翻訳精度が向上している機械翻訳やクラウドソーシングなどがあります。最も身近なのは知人などを含めたフリーランス翻訳者への依頼です。特に知人への依頼は、依頼する側にとって気軽に頼める存在です。気軽さゆえ価格交渉もしやすい利点がありますが、知人でないフリーランス翻訳者であれば交渉はしづらいですし、何よりなかなか出会える機会がありません。また、マンパワーに限界があるためボリュームがある場合や複数言語への翻訳が必要な場合は対応できないのが難点です。

 外部に委託せずに社内で翻訳者を育成する方法もあります。フリーランスに比べると、社内翻訳者はコミュニケーションをとりやすく、商品情報や内部情報の共有をしやすいことが最大のメリットです。意図が正確に伝わるので一定の品質も期待できます。一方、常時翻訳対象のドキュメントがない企業では、翻訳専門のスタッフを抱えることはコスト増につながります。

 マンパワー、ボリューム対応という点をカバーできるのが、最近話題のクラウドソーシングです。場合によっては、安く依頼できることもあります。

 しかし、結局は個人の能力次第なので「いい翻訳者に出会えるかどうか運次第であること」「ムラがあること」、「翻訳の品質を保証しない」がデメリットです。


 専門のスタッフによって、品質管理、工程管理が実施されているため、一定水準以上の品質を確保したい場合や、大量のボリュームを翻訳する場合に適しています。個人翻訳者への依頼に比べると価格は高くなりますが、改訂時の反映や修正対応など、アフターケアも充実しているため、やはり安心です。また、TRADOSMEMO Q(コンピュータ支援翻訳ツール)といったソフトウェアへの対応力も高いため、構造文書や各種制作物などにも柔軟に対応可能です。

 次に翻訳業界の需要状況を考えれば、

 最も需要があるのはやはり英語。アジア諸国企業のグローバル化に伴って、中国語や韓国語をはじめとした言語の需要も高まっています。経済成長が著しいアジア圏は市場としても魅力的な場所になっていることも理由の一つです。一方で、ニューラル翻訳の台頭により近年は機械翻訳の精度が向上しています。

 機械翻訳の精度が高まる中、翻訳者は必要なくなるのではないかと心配している人もいるかもしれません。しかし、プロフェッショナルとしての翻訳者の需要はなくならないというのが大方の意見です。全世界50カ国以上にソフトウェアを販売している、とあるIT企業では、「翻訳が必要なコンテンツのうち、現在は2%しか翻訳が出来ていない。」と苦労を口にしています。残りの98%は未だ翻訳がされていない巨大な市場なのです。

 言語はいつの時代、どの地域でも必須のコミュニーションツールであり、翻訳は企業活動をするために必要なドキュメントを作成することでもあります。米国労働統計局では人工知能の発達で今後10年以内になくなる仕事のランキング予測に反して、翻訳業界の成長を見込んでいます。

 機械翻訳は日々進化し続けているため、確かに専門性が低く機械翻訳対応できるような単純な翻訳ニーズは少なくなるかもしれません。しかし、専門性の高い分野や、行間を読んで適切な表現をすることが求められる芸術性が高い小説のような分野では、人による翻訳がなくなる可能性は限りなく低いと考えられています。

 既存のチャネルとしては、日本翻訳連盟の「ほんやく検定」合格者のディレクトリがあります。会員企業であれば1級合格者の一覧にアクセスすることも可能です。また、翻訳者の力量向上とサービスの信頼性を付与する仕組みとして20174月から翻訳者登録制度(https://www.jsa.or.jp/jrca/jrca_rcct))も始まりました。

 この制度は国際規格であるISO17100に基づいて評価登録するもので、前述のほんやく検定等の合格実績と合わせて翻訳者としての活動実勢を評価します。翻訳を仕事にしたい人にとっては、新しい選択肢となるでしょう。外部サイトによる求人も有効な手段の一つです


翻訳における常識の不可欠性

 機械翻訳の難しさのひとつは、自然言語の文を扱うということは統語論では完結せず意味論も扱わねばなら
ないことが頻繁にある、という点にもある。

 たとえば英文 Time flies like an arrow. について、普通はこれを 「時は矢のように飛び去る 」(光陰矢のごとし)と解釈するが、これを 「時間蠅 は矢を好む 」 と訳することも可能で、文法的にも破綻がない。当然、普通は後者は間違いなのであるが、後者を捨て去る判断のためには、人には「時が素早く過ぎると感じられることがある」「矢は速く飛ぶ」「時間蠅という生き物は恐らく存在しない」「虫が矢を好むことなどありそうにない」といった知識が必要となる。 このように、正しい翻訳を行うためには、その文が関わる世界に関する様々な知識や感覚が必要となる場合がある。

 また、現実世界ではありそうにない時間蠅も、翻訳対象が架空の世界を描いた作品であれば存在するかもしれず、問題はより複雑になる。また現実世界においても、昆虫群の移動速度を測定したい生物学者は助手に向かい、「蝿たちを計時せよ! 矢のように(素早く)」と命ずるかも知れない。これらの場合は「光陰矢のごとし」という文の方が現実を反映しない訳ということになる。 同じ英文であっても訳者によって解釈が異なるのが当然で、AIにはそのようなことは今のところは起きづらい。なぜなら、AIは人生を経験したりしないからだ。AIが獲得できないものとして、おそらく最後まで残るのは人生を経験するということになるだろう。

 映画を見たり、物語を読んだりして想像することはできるが、実際に自分が人生の主人公になって自分の人生を生きるということはAIにはどうしてもできない

参考:

翻訳者ディレクトリ(https://www.translator.jp/
Proz
https://www.proz.com/
アメリカ(http://www.amelia.ne.jp/userTop.do

 こうした個人翻訳者へ直接発注できるチャネルは、発注側にとっても一定の品質を確保するための施策を実施しながら個人の翻訳者に直接依頼ができるため、クラウドソーシングのデメリットを補完できると考えられます。

AI(人工知能)

 AI(人工知能)には、「コンピューターが人間のように“学習”し、知識をもとに“推測”する」ことが求められ、そのために複雑なプラットフォームやアルゴリズムが用いられます。身近なところではスマートフォンの音声認識や障害物を避ける自動運転、インターネットの画像検索やウェブページ検索、産業分野のロボット制御や画像処理など、さまざまな場所にAI(人工知能)が活用されています。
 また、AI(人工知能)と言うと最新技術というイメージがありますが、じつは1950年代から研究が続けられています。現在のビッグデータやDeep Learning(深層学習)を活用したAI(人工知能)の発展は、「第三次人工知能ブーム」とも言われています。

Deep Learning(深層学習)とは

 機械学習は、大量のデータから規則性や関連性を見つけ出し、判断や予測を行う手法です。そのためには、「色と形に注意」のように着目すべき特徴(特徴量)を人間が指定する必要があります。 Deep Learning(深層学習)は、その機械学習を発展させた手法です。 人間の脳神経回路をモデルにした多層構造アルゴリズム「ディープニューラルネットワーク」を用い、特徴量の設定や組み合わせをAI(人工知能)自ら考えて決定します。

 機械学習では、「色と形に注意」のように着目点を指示する必要がありましたが、Deep Learning(深層学習)の場合は指示をしなくても自動で学習します。ただし、精度を高めるには大量のデータが必要になり、読み込ませるデータによって学習の方向性も変わるので慎重に選ぶ必要があります。囲碁AIAlphaGo(アルファ碁)」やIBM社の質問応答・意思決定支援システム「Watson(ワトソン)」などは、このDeep Learning(深層学習)に該当します。


「特化型AIと汎用型AI」、「強いAIと弱いAI」などの種類については、

 AI(人工知能)は、用途によって「特化型人工知能(Narrow AI)」「汎用型人工知能(Artificial General IntelligenceAGI)」に分類されます。 

特化型AIと汎用型AIの違い

 「特化型人工知能(Narrow AI)」は、囲碁AIAlphaGo(アルファ碁)」のように、特定の作業・領域でパフォーマンスを発揮するものを指します。一方の「汎用型人工知能(Artificial General IntelligenceAGI)」は、作業・領域を限定せずに人間と同等あるいはそれ以上のパフォーマンスを発揮するものを指します。 イメージとしては、SF映画に出てくるような自分で考えて自立して行動する、生命に近いロボットプログラムが汎用型人工知能に該当します。ただし、人間と同等かそれ以上に万能なAI(人工知能)は、今のところ実現不可能です。 実用化されているAI(人工知能)に限れば、すべて特化型人工知能と呼べるでしょう。

AIを使うには何が必要?学習モデルとデータセットについて

 実際にAI(人工知能)を利用する場合、「人工知能を作る学習フェーズ」と「人工知能を使う予測・認識フェーズ」にわけられます。その中で特に重要なのが、赤ちゃんのAI(人工知能)を成長させる学習フェーズで、その際に必要になるのが学習用の「データセット」と「学習モデル」です。一般的には「データセット」から規則性や関連性を抽出し、学習を繰り返すことで「学習モデル」を作っていきます。 特にDeep Learning(深層学習)の場合、精度を高めるために大量のデータが必要です。 また、データの正確性も重要な要素になります。不完全なデータで学習すると、間違った判断をしてしまい、求めている方向にAIが学習しないリスクがあるからです。

      
             完

編集後記:
 この論説は、長年、技術翻訳に従事して来られた同業の知人 (その多くは東京、横浜、大阪に居住し、翻訳者、機械翻訳出力の再編集、あるいはチェッカーとして活躍中) からの相談、質問に答えるための筆者の個人的な見解であり、アクセスの多いホームページに収録し、広く発表し、同様な悩みを持つ方々にも見て頂き、ご意見を頂戴致したいと考える次第です。