音声認識から音声対話へ
・音声認識の技術・サービスがスマホ向けに大きく拡大している。NTTドコモの「しゃべってコンシェル」には、フュートレック(コード2468)の音声認識エンジンが使われている。この音声認識技術はケータイにとどまらず、カーナビ、業務支援ソリューションなど応用範囲は広い。
・音声認識とは人が自然に話す音声で入力する技術である。UIはユーザーインターフェースの略で、人と機械の接点に関わることを意味する。スマートフォンをはじめとするさまざまな電子機器(家電、自動車)に、声で情報を入力する音声認識技術が一気に広がる局面を迎えた。
・ 今までのキーボードはタッチパネルとなり、音声での入力も可能となった。情報機器と使い手である人間との接点(UI:ユーザーインターフェース)が多様化 している。音声認識機能には、(1)声を認識する音声認識、(2)テキスト(文章)をスピーチ(話声)に変換する音声合成、(3)機器と人との対話を実現 する音声対話、の3つがある。
・例えば、スマートフォンに「朝6時に起こして」と話しかけると、スマートフォンは“アラームのセット”と理解し、「アラームを6時にセットします」と返答のうえ、アラーム機能をセットする、という具合である。
・また、業務支援ソリューションの分野では、業務日報システムが注目される。銀行では、外回りを担当する営業員の残業代の半分は昼間の活 動を報告する日報作りといわれている。これを、営業先を出るごとに音声で要点を入力し、後で会社に戻り文章を手直しすると日報が出来上がる、というように 効率を高める。
・現在国内で、音声認識、音声合成、音声対話の3つの技術すべてを有しているのは、フュートレックのみである。同業のアドバンスト・メディア(3773、東証マザーズ上場)のものなどに比べて、外の環境で使った時の雑音に強い。
・ 音声認識には、以下の3つの種類がある。 (1)分散型音声認識ソフトウェア~分散型はサーバーを利用する音声認識エンジンである。音声の特徴量を抽出し、それをサーバー側で認識して認識結果を戻 す。サーバー上の膨大なデータをもって認識するので、ケータイの中だけの認識より精度が高い。フュートレックは2年以上前から先行し、NTTドコモに採用 された。
・(2)ローカル型音声認識ソフトウェア~ローカル型はサーバーと通信せず、ローカルに実行する音声認識エンジンである。通信 をしない分スピードは速いが、端末内に持てるデータに限界があり、認識の範囲は狭い。 (3)ハイブリッド型音声認識ソフトウェア~ハイブリット型は、分散型とローカル型を組み合わせたもので、名前などケータイのアドレス帳を用いてローカル で判断し、文章はサーバーで認識するというものである。
・これらをうまく使い分けながら、ケータイ、カーナビなどで効果的な音声認識を実現していく。音声認識技術の中で現在最も力を入れている のは、音声対話技術である。ユーザーの発話を認識し、キーワードから返すべき返答を選択して、合成音声で発話させる。かつてのSF映画の世界で、ロボット と話しをするようなものである。それが現実のものとなってきた。
・この技術は他にも製品化できる分野がある。例えばカーナビである。現 在は手入力のため、安全上車が止まっている時しか必要な項目の設定ができないようになっている。これが音声対話なら、ハンズフリー(手を使わず)に声で設 定することができるので、将来的には運転しながらの操作が可能になるかもしれない。
・単語への対応も重要である。新しい単語というの は、日々かなりの勢いで増えていく。例えば、数年前にツイッターという言葉は一般的でなかったが、今は普通に使う。そこで、ツイッターという単語の音質を 分析し、モデル化して辞書に加えておく必要がある。これがしっかりしていると、音声認識の精度が上がる。早く正確に認識して、間違いがないということが、 音声認識にとって最大の競争力となる。
・音声認識では、(1)音声認識関連技術などを機器に組み込むことで発生するライセンス料、(2)製品搭載に伴って行うカスタマイズ収入、(3)アプリ「しゃべって翻訳」などの有料会員からの月額利用料、という3つの収益機会がある。
・ フュートレックは、R&D投資にも力を入れている。日本語だけでなく、多言語化を図る予定だ。中国語、韓国語、タイ語、マレーシア語、ヒンズー語 など主にアジア系の言語である。多言語化については、現地の企業と組んでいく。例えば、タイ語はタイ語のデータを持っている企業からデータベースを購入す る、中国語は中国企業と提携する、などという具合である。
・この音声認識技術はケータイにとどまらず、カーナビ、業務支援ソリューションなど応用範囲は広く、今後の事業機会は一段と拡大しよう。