画像を音声変換して音声の無い素材で音MADを作ろう

f:id:tkri:20210116004257j:image

こんにちは、トランプおうwzです。

 

突然ですがみなさん、音MADって作ってますか?

 

僕はというと、しばしば作ってニコニコ動画アップロードしています。

 

 

こちらはその一例。好きな素材と好きな音楽を組み合わせ、忙しい時間の合間をぬって編集に勤しんだ作ですが、悲しいくらい伸びていません。よければ見てやってください

 

……さて。上記の動画を含め「音MAD」というジャンルは、その名の通り「音声を用いた音MAD」です。

なので、音声の存在しない素材を使った音MADを作るのは一工夫必要です。

例えば、こんな例があります。

 

  • 原曲をいじる
  • 有志が声をあててそれを使う
  • 文章があるのでそれを読み上げソフトに読み上げさせる
  • ゲームキャラクターなので効果音をボイスってことにする

 

 

f:id:tkri:20210115224849j:image

 

これらも一つの手法として有効ではありますし、既に一定の結果を残してもいます。

しかし、僕は思ったのです、それらは真に「画像の素材を使っている」と言えるのか?と。

 

f:id:tkri:20210115225133j:image
※これらの手法、動画を否定・批判するものではありません

 

ということで、「純粋な画像の音声」を、公式の音声以外で抽出するにはどうしたらいいか考え、ある結論に至りました。

 

「画像を直接音声に変換したもの」が
一番「純粋な画像の音声」なのでは?

 

ということです。

 


f:id:tkri:20210115230413j:image

 

そこで、画像を音声化できる手段を考えてみました。

 

  • ファクシミリやダイヤルアップ通信で画像を送受してその音声を採る
  • 画像を音声のスペクトログラムとして変換する

 

 

f:id:tkri:20210115231629j:image

 

ファクシミリやダイヤルアップ通信で画像を送受してその音声を採る

このFAX・ダイヤルアップ通信の画像送受音声というのは、その通信をするときに発せられる

ピーーーーヒョロロロロロガァァァーーロロロロ

みたいなやつです。

 

すごく印象的な音だと思います。

これは音声を用いるアナログな手段でのデータ通信をするために、画像やデータを0と1を区別した音に変換しているんですね。


f:id:tkri:20210115233155j:image

 

そうやって画像素材やデータを送受した音声は純粋な画像の音といえるのではないか、ということです。

ただ、調べたところそういう音声変換を行えるPC上のソフトウェアは見当たらず、FAX機などから直接録音するしかなさそうですから、若干面倒な手段かもしれません。

またその仕組みから素材が異なっても音声に差異が生じにくいという欠点もありますが、ウェブサイトを素材にする際などデジタル感を出したい場合には特に有効かと思います。

 

画像を音声のスペクトログラムとして変換する

続いて音声のスペクトログラムに変換する方法です。

 

スペクトログラムというのはよく声の解析とかで使われてる、音声の周波数などを示したグラフ的なやつです。



f:id:tkri:20210115233653j:image
スペクトログラムの例


スペクトログラムは音声から得られる情報ですが、逆にスペクトログラムから音声に復元することも可能なのです。

 

よって、画像をスペクトログラムとみなし、音声に変換してしまおうというのがこの方法となります。


f:id:tkri:20210115234023j:image

 

テクノ系の音楽作品に用いられることも多く、有名どころでは平沢進がこれを用いた楽曲を発表したことがあります。(Speed Tubeなど)

僕も「阿部寛のホームページが!」という音MAD動画でこの技術を実践しています。

 

上のように実践したところ大きな反響があったことからも、この手法が優れているのは明らかです。

 

これは仕組みが単純なため、実行するためのソフトウェアも数多く出ています。

Wikipediaの記事にも箇条書きで列挙されているくらいです。

上述の動画では「Image to Audio, Spectrogram Player」というウェブサイトを利用しました。

 

ソフトウェアの豊富な面から見て先述したFAX・ダイヤルアップ通信と比較してそのハードルは低く、画像ごとの個性も出やすいかと思います。

この技術の欠点としては、画像によって音声がノイジーになりすぎる場合があるという点が挙げられます。

これは画質を変えて変換を行い重ね合わせることである程度のカバーは可能ですし、エフェクトによって音を丸めるなどすればある程度解決するかと思います。ギターやベースなど色々使えそうです。

 

さて、いかがだったでしょうか。

それぞれ欠点はありますが、どちらの技術であっても全く音声素材の無い状況とは訳が違います。

一度音になってしまえば、加工するだけなのですから。

最近はVocalizerなど「音に喋らせる技術」の裾野も広がっていますから、その素材に喋らせたり歌わせたりもできますね。

 

まあ、誰かがそれを「素材」と定義した時点でどんなものも素材になるのが音MADです。

各々、好きなように自分なりの「素材」を音MADにしてみるのがいいと思います。

でも、その一助としてこの技術を活用してみるのも一興ではないかな、と思う次第です。

 

私は金輪際作りません

 

それでは、さようなら

 


 

使用画像クレジット