音声認識機能付きアプリについて知っておくべきこと

近年、iOSやAndroidに搭載されている音声認識機能が飛躍的な進歩を見せています。スマートフォンを指で操作することを面倒だと感じるユーザーから、高度な音声認識のUIの需要が高まっていることも理由の一つにあるでしょう。

なぜ音声検索機能を実装するべきなのか

なぜ、アプリに音声検索機能を実装すべきなのか、その理由についてご紹介します。

2018年のトレンドは音声検索

すでに2018年のトレンドを予測した記事がいくつか公開されていますが、その中でも音声検索はさらなる進歩を遂げるだろうと予測されています。

理由として、スマートフォンなどの個人情報端末の所有者が増加したことやAmazon EchoやGoogle Homeなどのスマートスピーカーが流行したことから、テキストではなく音声で検索したいユーザーが増えていることが挙げられます。

2018年は更なる技術の進歩とともに、新たな検索機能技術が出現するかもしれません。このトレンドの変化に対して、アプリはどのような対応をしていくべきでしょうか。

voiceapp

トレンドの伸び

Googleは音声検索の利用率を公開していませんが、間違いなくトレンドとして注目されていくことでしょう。近い将来、音声検索数が全体の検索数の大半を占めるかもしれません。

voiceapp

スマートスピーカー

2017年はAmazon EchoとGoogle Homeのヒットでスマートスピーカーの売上が3倍以上も増加。声で操作するスマートスピーカーの普及によって、音声検索数が格段に上がりました。

アプリに音声認識機能を実装する利点

数年前からすでに音声認識機能を実装したアプリが市場に出回っていましたが、最近まで活躍の場がほとんどありませんでした。

しかし、ここ数年で音声認識技術と認識性能はより高度なものへと進化しています。これを率先してビジネスに取り入れれば、仕事の効率化も叶えられるはずです。

voiceapp

音声認識技術は話した言葉をテキストに起こせるため、議事録作成や会議中のメモを簡単に取ることができます。今後さらに性能が上がれば、議事録係も不要となるかもしれません。

また、特定のテキストを複数の文書の中に入れたい場合、事前に決めたコマンドを発するだけで入れこむことができます。

音声認識でのコマンドの実装方法

通常の音声認識機能は発生された声を拾ってテキストに変換しています。

voiceapp

下記は音声認識のコマンドをアプリに実装する方法です。

音声認識機能に特定のコマンドをユーザーに発してもらいます。
音声認識機能が喋った言葉をテキストに変換します。
変換したテキストを検索機能に通して結果を返します。

実装への課題

進化の著しい音声認識技術は、実装に苦戦することも少なくありません。プログラマーが共通して困難に感じた点をいくつか紹介しましょう。

リアルタイムでの応答音声認識機能は、ネットワークの状況とマイクの性能が大きく影響します。まず、ユーザーが喋ったコマンドはアプリで解析され、解析したワードをサーバーへ問い合わせます。サーバーからレスポンスが戻ってきたらアプリを通して動作が実行されますが、リアルタイムで処理するにはネットワークに遅延がないことが前提条件です。つまり、プログラマーが対応できることといえば、ソースコードを最適化することぐらいしかないのです。
言語音声認識は全ての言語に対応している訳ではありません。利用できる言語を限定するか、音声認識APIを利用する必要があります。

voiceapp

アクセントユーザーのアクセントによって、アプリが音声を認識できない場合もあります。最近のGoogle APIは多くのアクセントデータを蓄積してきたおかげで認識精度が非常に高くなっているので、この問題については近い将来、解決できるようになるかもしれません。

iOSとAndroidにおける音声検索機能の比較

iOSとAndroidに置ける音声認識機能の違いは以下のとおりです。

voiceapp

コスト AndroidアプリはGoogle playの公開に必要なデベロッパー登録料として初回時に25ドルの費用がかかります。一方、iOSアプリは毎年費用が発生し、年間99ドルを支払わなくてはなりません。コスト面については、アプリ内課金や広告を導入すればすぐに回収できるので大きな問題ではないでしょう。
制限ご存知のとおりiOSには厳しい審査がありますが、Androidの規約はiOSに比べればそれほど厳しくありません。音声認識に関する機能もiOSより多く組み込めるため、Androidの方が開発しやすいと言えるでしょう。

voiceapp

一貫性 AndroidはGoogle Play ストア以外でもアプリをダウンロードすることができますが、ダウンロード元によってレビューが異なります。対して、iOSでは全てのDLを一括で管理することができます。
SDK SDKはiOSとAndroid、どちらにも提供されていますが、「Android Studio」はAndroid版のみ、「iSpeech」はiOSのみです。SDKはとても充実しているので、プラットフォームの優劣は関係ないといえるでしょう。

最後に

言語学習からハンディキャップを持つ方のサポートまで、幅広い活用が期待される音声認識機能は、今後さらなる存在感を放っていくと予想されます。また、ウェアラブル端末にも音声機能の搭載が一般的になってくるかもしれません。

これからは音声機能をアプリでどのように活かすかが、勝負の分かれ目になってくるのではないでしょうか。

この記事は、AppSamurai社のブログ"All You Need To Know About Voice-Enabled Mobile Apps"を著者の了解を得て日本語に抄訳し掲載するものです。Repro published the Japanese translation of this original article on AppSamurai in English under the permission from the author.