進化する「音声合成」で動画ナレーションをAIが読み上げ

2022/07/28 ( 2024/01/22 更新）

音声認識と音声合成 (1)

「音声合成」というと、コンピューター合成の音声で歌ってくれる「VOCALOID（ボーカロイド）」を思い浮かべる人も多いのではないでしょうか。「初音ミク」などキャラクター化もされて広く知られることになったと思います。

入力したテキストをコンピュータが音声に変換して読み上げる「音声合成」ですが、漢字やひらがな、カタカナが入り混じる日本語は、英語などに比べると文字の種類も多く、漢字については読み方が複数あるなど複雑なため、実用は難しいところもありました。

ところが、この1〜2年とくに大きな技術的な進歩があり「音声合成」の進化は目まぐるしいものがあります。

音声分野の技術革新

株式会社アクエストが開発した「AquesTalk」などの音声合成ソフトにより「ゆっくり」とも呼ばれる少し棒読みのような読み上げ音声もよく使われるところですが、これらは、録音した人間の声を母音と子音に分割して、コーパスと呼ばれる言語のデータベースによって再構築して音声を作るような仕組みが一般的でした。

楽しそうな声や怒った声など、感情を表現するなども可能としましたが、実際に人の声を録音して分解しているので、感情表現を持った１つの声でもデータ量が大きくなりがちでした。

それに対して急速に進化しているのがAI音声合成などの技術で、ディープラーニングをさせることで、人がどのように発音するかを学ばせて、喋り方を学習させ、再合成をしていくことで、パラメータの精度が飛躍的に向上しており、リアルな音声に近づいているのです。

音声読み上げソフトを試す

サンプル音源を聴くと、これまでイメージしていたものよりも、より自然な話し方に聞こえて驚きました。株式会社 AHSの『VOICEPEAK』シリーズでは商用利用可能な音源がありましたので、導入してみました。

VOICEPEAKは、Dreamtonics社が開発した高品質なAI音声合成エンジン「Syllaflow」を搭載しています。人の発声と区別のつかないほど、より高次元な読み上げを謳っており、喜怒哀楽などの感情を込めた読み上げも自然に行うといいます。

動画のナレーションで、ナレーターに依頼してスタジオにて収録していたものをVOICEPEAKにて作成することを試みてみました。

VOICEPEAKに原稿を入力すると読み上げてくれます。ナレーターに依頼して作成したものに比べると、少なからず違和感はありますし、「人の発声と区別のつかない」というほどではないですが、以前よりも音声合成を聞く機会も増えていますので、ぜんぜん許容範囲。ストレスなく聞くことができます。

読み込んだ文章は、自動で認識して読み上げてくれますが、この時点で以前よりも大幅に認識率は上がっていることが分かります。それでも修正していく箇所はありますが、１文字ずつアクセントやイントネーション、長さなどの設定ができるので細かい調整が可能です。

CleanShot 2022-07-28 at 15.55.37

CleanShot 2022-07-28 at 15.55.48

細かい設定はできますが、思い通りに修正するのはコツが必要です。こだわりだすと修正時間は大きくかかりそうです。

文章はブロックに分けてタイムコードを設定できるので、動画のナレーションなどでは、動画に合わせて文章のスタート位置も調整できます。動画のナレーションとしても十分に実用に耐えうるものです。

CleanShot 2022-07-28 at 15.57.30

今回の記事をVOICEPEAKにて読み上げてみました。ぜひ、お聴きください。

タグ: Web制作

執筆者： TS部　佐藤新一