上の画像のギザギザ、実はあるモノを拡大して映した映像を切り出したものだ。
私たちの「声」も含め、世界にあふれるさまざまな音は、周囲の物体を音によって微かに振動させている。今、その振動を解析し、「そこにあるはずの音」を再現しようという研究が進められている。通常のマイクでは捉えられない音を再現できるテクノロジーは、どのようなイノベーションを生み出すのだろうか?
マイクで拾ったものではない、映像から再現された音とは?
映像から音を再現する「ビジュアル・マイクロホン」の研究が進められているのは、立命館大学 情報理工学部 西浦敬信教授の研究室だ。
技術について紹介する前に、まずは実際に「映像から再現された音」を聞いていただこう。
「あらゆる現実を、すべて、自分の方へねじ曲げたのだ」
はっきりと、そう聞こえる。しかし、この音声は空間を伝わってくる音を通常のマイクで収録したものではない。
元のデータとなったのは「音のない映像」のみ。振動する境界線の映像を画像処理することにより、音声データを復元しているのだという。
ギザギザの正体は、スピーカーのコーン部分だった!
先ほどの映像が何なのか、種明かしをしていこう。
実はあの振動は、スピーカーのコーン紙(振動して音を出す)のエッジ部分だ。
このような流れで音声データが復元されていく様子を見学させてもらったが、にわかには信じられない思いもある。その仕組みについて、西浦教授に聞いた。
「上の実験では、わかりやすいように音源そのものであるスピーカーの映像を使っていますが、スピーカーが振動する波形が、そのまま音声データになるのではありません。
一眼カメラでは、撮影する際にセンサーを1列ずつ高速でスキャンしていく『ローリングシャッター』という方式で映像を撮影しています。
スキャン中も物体は動きますから、そこには“歪み”が出てしまうんですね。その映像の歪みを波の成分として検出するアルゴリズムを開発しました」(西浦教授、以下同じ)
歪みが検出されれば良いため、上記のような「模様の振動」からも、音声を復元することができる。念のため繰り返すが、元になった映像は“無音”だ。
将来的には街角の映像の一部から音を再現することも可能になる!?
このビジュアル・マイクロホン技術を使えば、「画素数の大きい精細な映像の一部」から音を再現することも可能になるかもしれないという。
「例えば、街角の様子を映した高精細な映像があれば、その隅に映っている人の会話なども、原理上は再現可能になります。これは極端な例ですが、音声マイクでは捉えられない音、しかも映像の中の任意の場所の音を再現することも不可能ではないのです」
ビジュアル・マイクロホン技術が進化すれば、遭難事故や災害救助など、現場の映像から「目には見えない人の発する音」を検出するというような使い方も考えられるという。また、西浦教授は、火山の観測映像などから微細な振動を読み取り、災害予知などに活用する可能性も指摘する。
これまで、「映像と音は、異なるデバイスを通じて記録する」のが当たり前だった。ビジュアル・マイクロホンは、その概念を打ち壊し、映像から任意の場所にある音を取り出すことを可能にする。
「映像に記録された音声」の再現。ビジュアル・マイクロホンが持つ可能性は計り知れない。
西浦敬信
奈良先端科学技術大学院大学博士課程修了 博士(工学)。エイティーアール音声言語通信研究所 研修研究員 、和歌山大学システム工学部助手を経て、2004年に立命館大学に着任。現在は、情報理工学部教授を務める。専門は音響情報処理、音響信号処理、音響システム、音インターフェイス。