Amazon Polly で紹介動画を喋らすことを考えてみよう
2014年に作った紹介動画があるのだが、随分古くなっているので作り直したい!と思っている。
上の YouTube の動画の音声を消して再生しながら、下の MP3 を再生すると最終的にどんな感じになるのかが体験できる。
Mizuki Version ( 2:13 801KB )
Takumi Version ( 2:15 816KB )
どうだろう、私の音声より Mizuki さんの方がよくないでしょうか。
もちろん、弊社の 森田さんや、林田さんにお願いすることもできるが、かかる時間や、人件費などを考えると、残念ながら実際には実現していない。(何度もやろうと思ったことはある)
ぜひ、感想を聞かせて欲しい!
今回は Amazon のテキストの音声合成サービス Amazon Polly について少し紹介しておきます。
Amazon Polly について
深層学習により、文章を多数のリアルな音声・言語に変換
Amazon Polly は、文章を何十種類ものリアルな音声、多数の言語で変換できるサービスで、音声に対応するまったく新しいカテゴリの製品、アプリケーションを様々な国で配信できます。また、応答時間が短いため、リアルタイムの対話が実現でき、かつ音声はキャッシュして保存できるため、オフライン再生や再配布も可能です。
と書かれています。現在はドキュメントも日本語化されているし、何かシステムを作らなくても、以下のようなフォームにテキストをコピペして MP3 をダウンロードが簡単にできます。
macOS に喋らせてみる
ターミナルで say コマンドでテキストを喋らしたり、ファイルにしたりすることもできます。残念ながら a-blog cms がうまく発音できません。
say "それでは、まず a-blog cms のエントリー投稿の基本として..." -o say.m4a
その他のサービス
当初は、以下のようなサービスを先に発見して検討していました。 Amazon Polly の Mizuki より上手に喋りますが、残念ながらその分コストも高いです。 そんな遠くない将来には Amazon のサービスも負けないくらいになるのを楽しみに待つことにしたいと思います。
ちなみに Amazon Polly は 100 万文字あたり 4.00 USD の従量課金制 で、VoiceText Web APIは 100,000リクエスト で 80,000円、AITalk 声の職人は、月間2,000文字まで 50,000円 とビックリする価格差なのです。