モノに話しかけても平気な日がくる!? 声系ハード＆ソフト実践者のミートアップ「VOICE」レポート

17.Nov.2017

「Google Home」「Amazon Echo」「LINE Clova WAVE」など、活況を見せるスマートスピーカー市場。ポストスマホ時代のUIが音声に切り替わろうとしている今、私たちの情報生活はどのように変わっていくのでしょうか。

OpenCUでは音声系サービスやハードウェアの最先端にいるスタートアップのみなさんをお招きし、「VOICE : Human & Computer’s Love Story 声によるコンピュータとの対話＆人とロボットのインターフェースの関係」と題したイベントを2017年10月24日に開催。各社のピッチとパネルセッションの模様をお届けします。

VOICE : Human & Computer’s Love Story
声によるコンピュータとの対話＆人とロボットのインターフェースの関係

井口尊仁さんが語る「音声の時代はこれからだ」

「ハード・ソフト・クラウド・IoT全部ひっくるめて、“音を使ったコンピュータがどうなっていくのか”というビジョンを語り合ったり、最新情報をアップデートして、これからのビジョンをお互いイメージしたりする機会を持ちたいと思い、今回のイベントを開催することになりました」と語るのはモデレーターの井口尊仁さん。

シリコンバレーのITジャイアンツたちが、続々とスマートスピーカー市場に参入する一方（アーリーアダプター向け製品ではなく少し乗り遅れているという状況も・・・）、日本では「スピーカーはもともと音楽を聴くためにあるものだけれど、スマートになると自分たちの生活がどう変わるのか」が伝わりづらいと言います。

「『AppleⅡ』の登場から『iPhone』が普及した現在に至るまで、“ディスプレイを目で見て、指でマウスやスクリーンを操作する”というUI・UXの世界が約40年続いてきましたが、「Amazon Echo」が発売されたことにより“スピーカーと話すことでコンピューティングできる”新たな世界に突入しました。『Amazon Alexa』に限れば、2017年中に3500万台が全米で普及して、2018年中には1億台を超えると言われている。『Amazon Alexa』関係の社内エンジニアは5,000人を超えており、ますます増えていますし、App StoreのAlexa版『Alexa Skills』は、夏の段階で15,000以上となり、日々増え続けているという、とんでもない状態です」と、本イベントの発起人である井口さんは、状況を整理します。

最先端の音系市場に挑む4人のプレイヤーたち

まさに、新しいエコシステムが生まれようとしている今、日本ではどんな音系スタートアップが先陣を切っているのでしょうか。今回、登壇した4社の製品・サービスを紹介していきましょう。

iguchi-speak

「Ball」 by 井口尊仁（DOKI DOKI, INC.）

今年の6月にβリリースしたばかりの「Ball」は、声や音によるコミュニケーションを楽しむ音系Twitterです。「アメリカではAmazon Echoのユースケースのベスト3が“目覚まし時計・ニュース・音楽”であることが見えていますが、本当にそれでいいのか？と。PCやスマホではソーシャルなコミュニケーションやコミュニティがメインストリームとしてあるので、我々はそこを狙っています」

「KoeTomo」 by 八尾憲輔（Meetscom株式会社）

音系のアプリやシステムの開発を中心に手掛けているMeetscom。「KoeTomo」は、知らない人同士が会話や音声投稿を楽しむボイス系SNSです。「昨年の6月30日にスタートし、現在の登録ユーザーは約7万人ほど。ゆくゆくはインスタグラマーやユーチューバーのようなボイスクリエイターの輩出を目指しています」（八尾さん）

yamazaki
「Empath」 by 山崎はずむ（株式会社スマートメディカル）

スマートメディカルの開発した音声気分解析技術「Empath」は、数万人の音声データベースをもとに、喜怒哀楽や気分の状態を独自のアルゴリズムでリアルタイムに判定する、感情解析プログラムです。「現在お客様が約500社、API提供で世界40ヶ国で使われています。アウトバウンドのコールセンターで活用したところ程度約率が20%程度アップした。この成功事例をECに転用していくのが、僕らの戦略です」

「APlay」 by 山本健太郎（株式会社ネイン）

音声アシスタントのヒアラブル「APlay」は、イヤフォンとして音楽を聴いたり通話ができたりするだけでなく、専用アプリと連携することで、カレンダー・天気・路線情報・ニュースなどの情報を音声アシスタントが読み上げてくれるほか、メッセージの送受信も音声だけで完結します。「将来的には、耳からの情報は全部うちが取れるようにしていきたい」

公衆の場でモノに話しかけてもおかしくない日がやってくる？！

後半は、登壇者4名に、ホワイトレーベルのスマートスピーカー「Fairy I/O Tumbler」をBtoBで提供するフェアリーデバイセズ株式会社の藤野真人さんを加え、トークセッションを行いました。司会を務めるのはロボットスタート株式会社の北構武憲さんです。ここではほんの一部を紹介します。

kitagamae

ロボットスタート株式会社の北構武憲さん

井口　今日、このトークセッションで明らかにしたいことが2点あります。1点目は「スマートスピーカーはロボットではないのか？」、2点目は「来年スマートスピーカー元年を迎えようとしている日本で“スマートスピーカーが、まさにコンピューティングのUIである”ということを伝えるには、どうすればいいのか？」です。

北構　では、その2点を明らかにするために、まずはみなさんがなぜ音系に取り組もうと思ったのか、という理由を聞かせてください。

藤野　7年前から音声情報処理をやってきましたが、2012年にディープラーニングが出てきて、当然、音声でもディープラーニングが使われていくことで、「これは世界が変わるぞ！」と思ったのが、今でも続けている理由ですね。

fujino
フェアリーデバイセズ株式会社の藤野真人さん

山本　Apple Watchのアプリケーションをずっと作っていたのですが、「Amazon Alexa」が流行っているというニュースを見た瞬間にヤバイなと思って。もともとパイオニアでカーナビの開発エンジニアをやっていたのですが、音声対応の概念を明らかに超えているのを目の当たりにして、次は絶対に音声インターフェースが来ると思い、独立して2016年から自社製品を作り始めました。

井口　会場のみなさんに聞いてみましょうか。「絶対、音声が来るぜ！」と革新のお持ちの方は挙手してください。…やっぱり日本の全国平均と比べると、極めて高いですね（笑）メディアの立場で言うと、ロボスタ的には音声をどう位置付けていますか？

北構　3年前にスタートした当初はPepperやRoBoHoNの話題が多かったのですが、今年の年明けからはスマートスピーカーの話題が増えてきていますね。最近だとロボットよりスマートスピーカーの方が多いくらい。音声もロボットのインタラクティブなコミュニケーションのひとつなので、来るのではないかと思っています。私たちもスマートスピーカーを実際に見て、衝撃を受けたのですが、実際、どういうところがすごいのか、もう少し詳しく山本さんに伺いたい。

山本　最初に発売された声を聞いて、「なんてセクシーなんだろう！」と、声に本気度を感じました。これまでのTTS（音声読み上げ機能）はロボットっぽい発話が続いていたのに、「Amazon Alexa」は、全然違った。できることはたいしたことないけど、認識率は半端ないなと思いました。

会場の様子

北構　来場者のみなさんからも質問があれば、どうぞ。

参加者　声は感情が分かって良いコミュニケーションではある一方、テキストのように電車ではやりにくいというデメリットもあると思うのですが、そこはどうお考えですか？

八尾　それが本当に問題なんですね。僕も電車の中で「KoeTomo」に投稿してみたんですけど、みんなこっちを見ます。日本人はやっぱりできないですよね。海外の友達には「べつにいいじゃん」って言われるんですけど、そのあたり井口さんに教えてもらいたいです。

井口　「Ball」は立ち上がったばかりですが、ユーザーやコンテンツのアクイジションには非常に苦労しています。でも基本的に起業家はやみくもに楽観的なので、何かしらの取っ掛かりはあると思っています。ご質問にあった“パブリックな空間でしゃべるのが恥ずかしい問題”については、世界的には必ずそうではない。アメリカではBluetoothのヘッドセットをつけてベラベラしゃべっていますから。日本人は極めて奥ゆかしいけれど、それが世界基準ではない。今後もこの状態が変わることは絶対にないのかといえば、そんなことはないと思っています。

山崎　私は非エンジニアなので、正直、話しかけて音楽が流れても「なんじゃそりゃ」と思っているんですけど、それでもそれが自然になることは全然あるかなと思っていて。例えば、“本を読む”という行為でみると、日本人が黙読するようになったのって、たった150年前なんですよ。活版印刷というテクノロジーができたことで、黙読が可能になったのですが、それまでは、みんな声に出して読んでいた。テクノロジーが人の認知や行動様式を変えた瞬間です。だから、同じように公衆でモノに対して人が話しかけるのが自然な世界も、いずれ来るだろうと思っています。

実践者によるトークは主に未知への体験をユーザーにどう理解してもらうか？　そして、サービスデベロッパー側はそれをビジネスモデルにどう変えていくか・・・を中心に議論が交わされました。そして、発起人である井口尊仁さんは本イベントを締めくくりました。

「デジタル革命の歴史、それこそDOS/V全盛時代の手前では国産PCが我が世の春を謳歌していました。

その後も検索エンジンやスマートフォン、IoT、人工知能など、日本勢は常に一歩も二歩も先に行くパイオニア的な敢闘精神を発揮しながら、常にデファクトスタンダードにはなれないまま、AR/VR/MRの世界でも後塵を拝しつつある状況です。

そして音声コンピューティング、スマートスピーカーに代表される声や音の時代でも遅れを取りつつあります。そう、流行をキャッチアップするのではなく新しいムーブメントやカルチャーを作るべき我々がもはやフォロアーの地位に於いてすら、もはや先端の地位ではないこと。これを改めて痛感する今日この頃です。

まず、音声の時代はスマートスピーカーに留まりません。また、それはデバイス間の市場競争、いわんや売れたユニット数のみの問題ではありません。そして、それはここ十年くらいのコンピュータインターフェイスの大きな転換点でもあります。それらを踏まえて、全体像として声と音の未来を真剣に考えたい！その一つの機会としてこのカンファレンスが貢献できたら、これに勝る喜びはありません。

また、回を重ねて進めていきたいチャレンジだと思っていますので、ぜひ、皆様のできることを武器にこの領域へのご参加をお待ちしております」

all

Let’s Watch Session Video!
プレゼンやトーク・セッションについて詳しくは動画をご覧ください。

テキスト：野本纏花（@nomado617）

井口尊仁

DOKI DOKI, INC. Founder CEO and Telepathy Fellow 2009年、拡張現実アプリ「セカイカメラ」を世界中でローンチ。300万ダウンロード超のヒットでテッククランチのベストモバイルアプリのファイナリストに選ばれる。2013年、グーグルグラスの有力な対抗馬としてフォーブスはじめ世界中のメディアから評価されるTelepathyを発表する。現在サンフランシスコと京都を拠点に、DOKI DOKI, INC.で活動している。新しい地球規模のコミュニケーションを再発明する試みにチャレンジする毎日。https://www.facebook.com/dokidokisfo/