AIとつくるはじめてのWeb開発

0/40

生成メディア

セクション 15 / 40

音声生成

ナレーション自動化。声の“なりすまし”に注意

音声生成AIは、文章を“しゃべらせる”AI（音声合成＝TTS：Text To Speech）です。ナレーション、動画の声、読み上げコンテンツなどに使います。

代表的なツール（2026年時点の例）

ElevenLabs: 自然な音声と多言語対応で有名。
OpenAI / Google / Microsoft の音声合成: 各社が高品質なTTSを提供。

何ができる？

文章 → ナレーション音声（TTS）。
多言語の吹き替え・読み上げ。
既存の声を再現する「ボイスクローン」。

⚠️ ボイスクローン（声の複製）は要注意

本人の許可なく他人の声をまねるのは、なりすまし・詐欺・権利侵害になりえます。必ず本人の同意がある声だけを使いましょう。

保存形式

画像や音楽と同じく、編集・高音質ならWAV、配布・Webならmp3が基本です。動画に乗せるなら、そのまま動画編集ソフトへ取り込みます。

自然に読ませるコツ

話す速度・間（ま）・読み方（イントネーション）を指定すると自然になります。固有名詞の読み間違いは必ずチェックを。

理解度チェック

すべて正解すると、次のセクションが開きます（はい・いいえ）。

Q1.文章を音声に変換する技術を、TTS（Text To Speech＝音声合成）という。
Q2.本人の許可なく、他人の声をAIで再現（ボイスクローン）して使ってもまったく問題ない。
Q3.音声も、高音質で残すならWAV、軽く配布するならMP3が基本である。

すべての問いに「はい・いいえ」で答えると押せます