ディープラーニングの仕組みと応用

基本的な仕組みの次は、ディープラーニングの適用領域を見ていこう。主に音声認識、画像認識、言語処理の三つがある

このうち、最も進んでいるのは音声認識の分野である。
短時間区間の音声から音素（語と語の意味を区別する機能を持つ音声の最小単位）を推定する音響モデルの部分で活用が進んでいる。

ただし、外部のノイズが大きい、残響があるなど、学習環境と利用環境に大きな違いがある場合は、ディープラーニングでも認識精度は低い。
最近は言語モデルを利用することによって、単語や文中の単語のつながりの情報を活用し、音声認識の精度向上を図る取り組みも進んでいる。言語モデルには、自然言語処理の分野で近年活用が拡大している再帰型ニューラルネットワークが利用されている。

続く画像認識は、ディープラーニングで現在、最も注目を集める適用領域だ。PoC（Proof of Concept：概念実証）が盛んで、実用化も進みつつある。
静止画像の画像分類のような単純タスクでは、ディープラーニングは既に人間より高い認識率を実現したと言えよう。最近では、こうした簡単なタスクではなく、物体の領域を画素レベルで分離するセグメンテーションや動画像処理の分野の研究開発が進められている。

このように音声認識や画像認識が成果を上げる一方、自然言語処理の分野での成果は今のところ限られる。
ディープラーニングの適用分野は、ニュースの要約や欧米言語間の翻訳などに限られる。
興味深い成果もいくつか出てきた。その代表例は、単語や文章の意味などを数百次元ほどの固定長ベクトルで表現する「分散表現」である。

この状況を変えたのはGoogleだ。同社はニューラルネットワークを使用することによって、高速に分散表現を構築する手法を2013年に考案。
しかもGoogleがこの手法を「word2vec」というオープンソースソフトとして公開した。これによって多くの自然言語研究者が分散表現を活用するようになっている。
word2vecのように演算で単語の意味を類推できる仕組みがあれば、辞書作成の手間の省力化が期待できる。