音声合成と数学のやさしい関係

三洋化成ニュース No.492

音声合成と数学のやさしい関係

シェアする

2015.09.07

情報・システム研究機構国立情報学研究所
コンテンツ科学研究系准教授山岸順一〈やまぎしじゅんいち〉

1979年生まれ。2006年東京工業大学大学院総合理工学研究科博士課程修了。英国エディンバラ大学リサーチフェローなどを経て、現職。エディンバラ大学シニアリサーチフェローを兼務。

音声情報処理の研究に携わり、日本発の統計的音声合成方式を世界に波及させることに尽力。2014年文部科学大臣表彰若手科学者賞受賞。共著に『おしゃべりなコンピュータ ―音声合成技術の現在と未来』。

写真＝本間伸彦

電車の車内放送や商業施設のアナウンス、家電製品の音声ガイドなど、私たちの身の回りにはコンピューターで作られた合成音声があふれています。近年、技術の進歩で人の声と変わらない合成音声も登場してきました。音声合成技術に数学を重ね合わせて、その人らしい声を作る研究をしている、国立情報学研究所の山岸順一准教授に最新の音声合成技術について伺いました。

身の回りにある音声合成技術

－－　まず、私たちの身の回りに、どのような合成音声があるのかをお伺いしたいのですが。

結構いろいろなところで利用されています。音声合成技術は、入力された文章やテキストから、あたかも人間の声のように聞こえる人工の声を、コンピューターの中で作る技術です。身近なところでは「次の交差点を右へ曲がってください」といったようなカーナビゲーションのアナウンス、携帯電話やスマートフォンに搭載されている対話エージェント、合成音声で質問に答えてくれるアップル社の「Siri」が知られています。その他、日本で有名なのはヤマハのボーカロイド「初音ミク」でしょう。
また、視覚に障がいがある人を対象にした画面読み上げ機能のある「スクリーンリーダー」や「ボイスオーバー」、iPhoneなど携帯端末のアイコンがどこにあるのかを合成音声でガイドする機能などがあります。利用者数は少ないですが、声に障がいのある方のための意思伝達装置も大事な応用例です。

音を関数で表す

－－　少し前のカーナビは、「100メートル・サキ・ミギ・デス」といったように音声が途切れ途切れになっていて、録音した声のパーツを組み合わせて一つの文章にしているのだと思っていました。

カーナビの物まね、すごくお上手です（笑）。実際に一昔前のカーナビに使われていた音声合成システムは、声優やナレーターの声を10時間から１００時間ぐらいかけてスタジオ収録し、合成したい文章に該当するところを想定して、過去の収録音声の中から探し出してつなぎ合わせていました。

－－　それはいつ頃まで使われていたのですか。

技術的には1995年にそのような音声合成システムが開発され、つい最近まで主流でした。なぜ途切れ途切れに聞こえるかといえば、コンピューターの中で自然な抑揚になるようにつなぎ合わせることができなかったからでしょう。同じ1995年頃に名古屋工業大学国際音声技術研究所の徳田恵一教授が、そのように音をつなぎ合わせるだけでは収録した人の声しか出せないので限界があると考え、音そのものをコンピューターに学習させて、数学の関数で表現する研究を始められました。音を関数で表せば、その関数から元の音の波形を作ることができると考え、各母音・子音の音の関数をコンピューターに考えさせる方式の研究を始めたわけです。そうした基礎研究から人の声に聞こえるようになるまでには10年ぐらいかかりました。2005年ごろからその方式でいろいろなことができるのではないかと考えられるようになったのです。

－－　音を関数にするとどういうメリットがあるのですか。

人間の声の特徴をコンピューターに覚えさせ、それをどうやって表現していくのかをコンピューターに考えさせることで、元の人間の声を作り変えることができるようになりました。そうすると、これまでのように長時間収録した声をつなぎ合わせる必要はありません。コンピューターが考えた関数の集合があれば、そこから人間の声が作れますので、合成音を生成する際に、膨大な音声データが必要でなくなりました。数メガの小さいデータで人間の声を作ることができるようになったのが最大のメリットです。

国立情報学研究所での研究の様子

音声合成技術の活用

－－　山岸先生が音声合成技術に興味を持たれたきっかけは何だったのですか。

音が好きだったことと数学や統計学が得意でしたので、両方ができるような仕事ができたらいいなと思ったのが、きっかけですね。音の研究が面白いと思い始めたのは大学4年生の時。その後、大学院の博士課程で基礎研究に取り組みました。2000年から2006年ごろのことです。

－－　ちょうど関数を使った音声合成技術が確立されつつあった頃ですね。

そうですね。徳田先生が声を関数で表す枠組みを考えて、さらに私がその関数を変換させる技術を加えました。ある人の声に似せるように変換させたり、あるしゃべり方に聞こえるように変換させたりする技術です。音声合成技術は数学的で面白いと思っていました。

－－　研究の中の楽しみの範囲でやっていたと。

おっしゃる通りです。その後、この技術に興味を持ってくれた方々が世界にいらっしゃって、いろいろと展開していきました。例えば、言語を超えた物まねの研究です。英国のケンブリッジ大学、フィンランドのヘルシンキ工科大学、ノキア、スイスのイディアップ研究所などと共同研究を行い、言語を超えて物まねができることがわかってきました。

－－　例えばオバマ大統領が日本語でしゃべるということですか。

その通りです。何を使うかというと音声翻訳システムです。音声翻訳というのは、人間の言葉を自動でテキストに変換し、それをコンピューターの中で目標の言語に変換して、その目標の言語でコンピューターが読み上げてくれる技術です。本人がしゃべっているわけではないのですが、あたかも自分がしゃべっているかのように自分でも思えるし、聞いている方も思える。そういうアプリが作れるかもしれないということで、海外の研究者といろいろな取り組みをしました。

－－　私が英語を上手にしゃべるとか。

そうです。もう一つは、しゃべり方の物まねで社会に役立つものを考えた時に、騒音下でのしゃべり方を思いついたのです。というのも、人間は、騒音下に置かれると無意識にしゃべり方が変わります。声がちょっと高くなって、しゃべり方がゆっくりとして、母音が長くなって、子音が短くなったりします。このような変化をロンバード効果というのですが、これを音声合成システムに加えることができないかと考えました。周りの騒音の度合いによって、音声合成システムが自動でしゃべり方を変え、かつ聞き取りやすくできるかもしれないという発想ですね。
非常にうるさい騒音を声優さんやナレーターさんにヘッドフォンを通して聞いてもらいながら、しゃべっている声を収録しました。そのしゃべり方をコンピューターにまねさせたところ、騒音下でも従来の音声合成システムよりも1.4倍聞きやすいシステムができたのです。大事なのはボリュームを上げないで聞き取りやすくなったということです。メッセージを届けるためには、ボリュームを上げる以外にもやり方があることを示した実験でした。

－－　私たちが電車の高架下で電話をしている時はボリュームが上がっていると思うのですが、関数化して声の質だけ変えたということですか。

そうですね。声の高さ、周波数、周波数の真ん中あたりの特徴、しゃべるスピード、といったボリューム以外のところの特徴を表す関数を変化させたら、ボリュームを変えなくても聞き取りやすくすることができたのです。

その人らしい声を作る

－－　ここで山岸先生が構築された音と関数の関係について教えていただけますか。

一次方程式や二次方程式は覚えていますか。

－－　忘れました。（笑）

一次方程式はy = ax ＋b、二次方程式はy = ax²＋bx＋c で表される関数です。ａｂｃが係数で、この係数を変えることで関数の形がいろいろ変わります。音の特徴がそうした関数で表せるとしたら、係数を変えることで声がちょっと変わるんです。
そして、もしコンピューターがその関数を学習できたら、そこにさらに関数の係数を変える方式を付け加えれば、コンピューターが自動である人の声を簡単に作れるかもしれない。そういうふうに考えて、いろいろな取り組みを始めたのが私の研究です。

－－　先ほどの徳田先生が音を関数としてとらえ、山岸先生がさらに発展させたということですね。

そうです。音にはその音を特徴付けている周波数帯域があり、それをフォルマントと呼んでいます。そのフォルマントをコンピューターの中で平均的に学習させます。平均的というのは、いろいろなケースを見ておおむねどうなっているかを分析することです。しかしそれだけでは不十分で、同じ「あ」でも前の音や後ろにくる音で周波数の特徴が変わるので、どれぐらい変動するかという情報も表す必要があります。この二つの情報を数学的に表すことができれば、何らかの方法で元の合成音声に戻すことができると考えることができます。こういった機械学習あるいはＡＩと呼ばれる方法論を使うことで、音声と周波数表現と関数との対応付けをする。これをすべてコンピューターに自動で考えさせるのです。
具体的には、実際に人が読み上げた声の音声波形をもとに先ほどの周波数特徴量の対応付けを考えるのですが、そこに数学を使っていきます。

－－　高校生の頃にこの数学は何に役立つのだろうと疑問に思っていたのですが、こういうところにも役立っているんですね。

すごく難しいことをやっているように聞こえるかもしれませんが、使うのは工学系の大学１年生で学ぶ微分積分や線形代数などの数学理論です。連立方程式でも10個の連立方程式があるような場合、あるいは10次元の特徴の掛け算などですね。そういう基本的な技術を使って、声に「その人らしさ」を付け加えることができるようにしたのが私の研究です。
それによってコンピューターが物まねをすることができるようになりました。また、5分から10分程度の実際の音声があれば、「その人らしさ」が簡単に付与できるようになったのです。

声を失った人の声を作る

－－　現在、福祉分野への音声合成技術の応用にも取り組んでいらっしゃいますね。

ええ。今は声の障がいのある方に「その人らしい声」を提供する取り組みに力を入れています。音声合成の物まね技術を使って福祉に応用できないかと考えたのが2009年ごろ。本格的に取り組み始めたのが2011年ごろです。対象となるのは声帯のがんで発声器官の一部を失ったり、ALS（筋萎縮性側索硬化症）という筋肉を動かせなくなる病気で発声できなくなる方々です。初めは英国のエディンバラ大学で研究を行いました。
この病気になると、進行が早い場合、たった8〜9カ月で発声機能を失ってしまい、コミュニケーションが難しくなります。その時に使っているのが会話を補助する意思伝達装置なのですが、声の選択肢は通常一つか二つしかありません。私が考えた音声合成技術を応用すれば、それに自分の声を加えられる可能性がある。もしまだ発声できるうちに声を収録できたら、その人の声のアイデンティティーを再現できるコミュニケーション装置を作れる可能性があると。

－－　病気が進行するともう難しいのですか。

今の技術では厳しいですね。ただ、病気の進行が初期の場合で、かつ、その人の声に近い兄弟の声を使うことができれば、その人らしい合成音を作成できる可能性はあります。兄弟がいらっしゃらなければ、その地域に住む人の「平均声」から変換させるという方法もあります。実際にエディンバラでは、ALSを患っている人の地域の人たちの声から「平均声」を作り適用しました。このように重度障がい者の意思伝達装置の一部として利用することで、ご本人はもちろんご家族にも非常に喜んでいただきました。現在は、もっと多くの方に利用できるシステムにしようと、クラウドシステムを作り始めています。

山岸さんとエディンバラ大学の同僚たち

芸術的な表現と悪用への対応

－－　その装置を一般の人にも応用することはできるでしょうか。例えば私がアナウンサーとしてベストだと思った時の声を残しておきます。そして、風邪をひいて声が出なくなった時にそれを使って上手に口パクができれば、あたかも私がしゃべったように聞こえると。

あり得るのではないでしょうか。ただ、現状の音声合成システムは、アナウンサーやナレーターの代わりをするところまではいっていません。普通の人のしゃべり方は実現しつつあり、実際に普通の人がコミュニケーションする時の聞き取りやすさと、合成音声の聞き取りやすさは同程度であることが実験で示されています。しかし、プロのアナウンサーのように訓練された表現や声優のような芸術的な表現は、コンピューターにはできません。芸術的な表現は難しいので、学習させるとなると多くのサンプルを集めないといけないのです。私は、そこまではコンピューターの合成音声で到達しなくてもいいのではないかと思っています。

－－　では私たちアナウンサーが職を失う可能性は、今のところないと。

共存できると私は信じています。コンピューターは聞き手の印象まではくみ取れませんので。

－－　音声合成技術がもっと普及すればよいと思う半面、気になるのはこの技術を悪用した「なりすまし」のようなものが出てくることです。

先ほどのクラウドサービスが悪用されると、誰でも自分の声を作ることができます。また、人によっては、ほかの人の声を勝手にアップロードするかもしれません。そのように悪用された場合に備えて、模倣された合成音声なのか、本人の声なのかを区別できるようにしようとしています。
その一つが、人間の声にしか起きない特徴を見つけ出して、その差を比較する方法です。具体的には、人がしゃべる時には口の中から大量の息が出ますが、コンピューターの合成音声からは出ません。そういう現象を上手く検出すれば、合成音声なのか本人の声なのかが区別できる可能性があります。また、人間の耳は音声波形のズレ、つまり位相の差に非常に鈍感なのですが、コンピューターは簡単に見つけ出すことができます。そうしたものをいくつも見つけ出して、悪用を防ぐためのいろいろな防御手法を考えているところです。

－－　それを聞いて少し安心しました。今日は大変興味深いお話をお伺いすることができ、勉強になりました。ありがとうございました。

と　き：2015年6月25日
ところ：東京・国立情報学研究所にて

三洋化成のWEB版企業広報誌