ぺーぱーふぇいす

雑記と備忘録。私はプログラマ。

Google Homeとか買ってないけど、音声操作のこととか。

ぜんぜんアプリ開発の進捗が進んでないけど、キーボードをタイプしたいのでそんな話を書く。

AIスピーカー買ってないけど

別にAIスピーカーのアンチってわけじゃない。
よくある「俺、TVなんてあんな時代遅れなの見ないし(キリッ」的なやつではなく、私が金銭的な余裕がじゃぶじゃぶあったら欲しいなぁと思う。
そもそもの所有欲の高い人間なのでああいうガジェット欲しいじゃん?
でもまあ、欲しくとも買ってないので結局のところGoogle Homeどころか、AIスピーカー自体の実際の使用感の話すらもできない。
ただ、AIスピーカーのメインのインターフェースたる「音声操作」について、最近思うところがあるのでうだうだと話をしようかな。

AIというほどじゃないよなぁ

私はAndroid派なのでiPhoneを持っていない。つまり、Siriについて詳しく知らない。
なのでもっぱらGoogleアシスタント(OK Google)を使用してきた感覚の話になる。

Siriを使わないので、Googleアシスタントと比べた優劣を個人的には付けづらいけど、Siriに対する色々なレビューやらを読む限り、両者の機能面はそれほどないと思える。
例えば、アドレス帳に登録された名前を指定して電話をかけたりSMSを送ったり、web検索を行ったり、インストールされているアプリケーションを起動させたり、目的地までのルートを検索したり、天気や株価を教えてもらう、音楽を再生する...とかだ。

まあ、上記に述べたよりももっと多機能であるとAppleGoogleもアピールしているが、実際のところユーザがよく使う機能と言えばこれくらいで、つまりは逆に言えば使えるレベルの機能はたぶんこれくらいしかない

SiriもGoogleアシスタントも、旧来よりもちょっと使い勝手がよくなった音声コマンド群と表現するのが妥当じゃないかな。
AppleGoogleも、それぞれSiriとGoogleアシスタントを知性を持った秘書のようにアピールしているが、それは誇大ではないかと思う。
受け答えやおまけ程度にジョークなセリフやお遊びを追加することで、人間味を加えてはいるが、果たしてそれが知性を持った...いわばAIというべき存在であるかというとそうではない気がする。つまるところ、「AIスピーカー」という名前も妥当ではないような感じで、どちらかといえば「音声アシスタントスピーカー」程度が妥当なネーミングだと思ってる。
まあ、AIの定義にもよるところだろうし、あくまで私の所感だけどね。

ただ、調べてみるとやはりAIスピーカーと呼び名に違和感というがアンマッチを感じている人は少なくないみたいで……というか、各製品のオフィシャルな商品名は「AIスピーカー」ではなく「スマートスピーカー」が多いようだ。

Amazon EchoもGoogle Homeも「AIスピーカー」ではなく「スマートスピーカー」だ。 | ロボスタ

「AIスピーカー」でなく「スマートスピーカー」と呼ぼう (1) なぜ「AIスピーカー」は適切でないのか | マイナビニュース

じゃあ、やっぱりAIじゃないんじゃん。

現代における音声操作の限界

先程は少しSiriやGoogleアシスタントに対して評価を落とすようなことを言ったが、秘書だのAIだのといった表現に当てはめるには大袈裟というだけで、モノ自体は悪くない。
Googleアシスタントもリリース当初と比べれば、話しかけた内容の認識率というか精度は格段に上がった。同音異義語が多い日本語でそう感じられるのだから、これはすごいことだと思う(文脈理解っぽいことをしている雰囲気あるし、こういうトコロがもしかしてAIと名乗る所以なのだろうか?)。

ただここで少し褒めておいてまた落とすようであるが、そうした認識の精度の良さはあってもできることは少ない。
いや、というよりも限定されていると言ったほうが正しいか。

例えば、 「OK、Google高崎駅から新橋駅まで」 なんて、Googleアシスタントに話しかけると、提示されるルートはGoogleマップアプリの路線ルートとなる。
私はこれが個人的に気に入っていない。
私が使っている路線検索アプリは「Yahoo!乗換案内」であり、できればこうした駅から駅へのルート検索は普段使っているアプリで結果出力して欲しい。
人によってはこれがNAVITIMEとかだったりするだろう。

ある種当たり前であるが、こうした決められたことしかできないのが音声操作の現状である。
Linuxをいじるのに沢山のコマンドをまずは覚えなければいけないように、「音声操作はどこまでできるか」を意識しなければならない。知っていなければならない。
こうした不足はGoogleと各アプリの制作側が対応するしかなく、スマフォにインストールされた大量の便利なアプリたちは、今のままでは残念ながら自分の声で操ることができない。 しかし、Googleアシスタントとかは無駄に話が通じる対話型インターフェースのように振る舞うので、余計にもどかしさがつのるわけだ。
「こんなこともできないの?」と。

本当の意味でのAIが必要

各アプリの開発陣がせっせと地道に音声操作に対応したところで、それは所詮新しいコマンドを追加したにすぎない。
Googleアシスタントにせめて自分でコマンドを追加できないのかというと、IFTTTを使ってTwitterとかLINEとかを操作する手段は得られる。

IFTTT - Wikipedia

ただ、対応していないサービスを基に自分が望む機能(レシピ)を作るのは不可能だし、 結局のところ、開発者が想定していないことは実現できない。
「何ができて何ができないか」を理解しながら使い続けるという、根本的なユーザのストレスも変わらない。

なので、私が思うに物理ボタンからタッチパネル、タッチパネルから音声操作と来て、その次に必要とされるのはスマフォの中に住んでいるAI君だと思う。 具体的に言うのでれあれば、端末およびサードパーティも含むアプリにフルアクセス可能で、要領よくこちらの意図を汲み取ってくれる対話型インターフェースだ。

結構前に「ロックマンエグゼ」というゲームがあったのだけれど、その世界でいうスマフォには「ナビ」と呼ばれるAIが入っていて、その世界の住人は基本的に端末の操作をナビと会話することで達成していた。
今求められる現状はまさにこのナビに該当する機能であり、それが達成できれなければ、現状の音声操作の質は高くなれど、根本的な不満足(ストレス)からは解消されない。

AIの定義もさまざまであるが、近年はこのAIという言葉の意味がかなり軽い。
一時期、ネットワークを介して疎通すればなんでもかんでも「クラウド」と名前をつけてシステムを売るやつが湧いてでてきたように、現在の「AI」という言葉もまた同じような立ち位置にある。
「それって本当に知性があると言えるの?」 「ただ条件分岐しているだけじゃね?」 って言うようなAI未満のAIが世に溢れている。
繰り返しになるが、AIの定義を考えればどこからどこまでがAIと呼べる知性なのかという話は議論になってしまう。しかし、こうした音声操作を達成してくれるAIにもとめているレベルは、きっと今現在AIと名乗っているものよりも平均して高いと思う。
こうした未成熟で走り出したばかりの新技術というものは、大抵の場合、すでにそれらが空想されていたSFと比較されがちになる。
つまり、AIと名乗るものは私自身も無意識的に、SF映画やアニメーションに出てくるような、シームレスに会話ができ、作業ができ、そして時折ラストシーン間際で感情や魂を宿してしまったりするAIと比較してしまうのだ。
そして実際にそういうAIを音声操作することを現代人は必要とするレベルまで来ているのだと思う。
これまでありとあらゆるデバイスに対する操作は物理的なものであったが、音声操作となると話は別となる。
音声操作……つまりは声による命令は同じ人間や調教された動物(犬とか)くらいにしか用いることができなかった方法で、このいわば命令は当然のことながら相手が知性を持ち、理解してくれることが前提の手段であるからだ。故に「音声コマンド」を受け付ける中途半端に人間みたいなことを言うSiriやGoogleアシスタントではもどかしい。

はやく高いレベルを持ったAIが世に生まれ、人間のサポートをしてくれないかな。
ちなみに個人的にアバター結月ゆかりが良い。