NaturalSpeech 3: 因子分解コーデックと拡散モデルを用いたゼロショット音声合成NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and
Diffusion Models
近年の大規模なテキスト音声合成(TTS)モデルは大きな進歩を遂げていますが、音声品質、類似性、およびプロソディの面でまだ課題を残しています。音声が内容、プロソディ、音色、音響的詳細など多様な属性を複雑に包含していることを考慮すると、音声を個々の属性を表す部分空間に分解し、それぞれを個別に生成するというアイデアが自然に浮かびます。この考えに基づき、我々はNaturalSpeech 3を提案します。これは、ゼロショットで自然な音声を生成するための新しい分解型拡散モデルを備えたTTSシステムです。具体的には、1) 内容、プロソディ、音色、音響的詳細を分解するための分解型ベクトル量子化(FVQ)を備えたニューラルコーデックを設計し、2) 各部分空間の属性を対応するプロンプトに従って生成するための分解型拡散モデルを提案します。この分解設計により、NaturalSpeech 3は複雑な音声を分解された部分空間で効率的にモデル化し、分割統治的に処理することが可能です。実験結果は、NaturalSpeech 3が品質、類似性、プロソディ、および明瞭性において最先端のTTSシステムを上回ることを示しています。さらに、10億パラメータと20万時間の学習データにスケールすることで、より優れた性能を達成しました。