ChatPaper.aiChatPaper

NaturalSpeech 3: 因子分解コーデックと拡散モデルを用いたゼロショット音声合成

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

March 5, 2024
著者: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI

要旨

近年の大規模なテキスト音声合成(TTS)モデルは大きな進歩を遂げていますが、音声品質、類似性、およびプロソディの面でまだ課題を残しています。音声が内容、プロソディ、音色、音響的詳細など多様な属性を複雑に包含していることを考慮すると、音声を個々の属性を表す部分空間に分解し、それぞれを個別に生成するというアイデアが自然に浮かびます。この考えに基づき、我々はNaturalSpeech 3を提案します。これは、ゼロショットで自然な音声を生成するための新しい分解型拡散モデルを備えたTTSシステムです。具体的には、1) 内容、プロソディ、音色、音響的詳細を分解するための分解型ベクトル量子化(FVQ)を備えたニューラルコーデックを設計し、2) 各部分空間の属性を対応するプロンプトに従って生成するための分解型拡散モデルを提案します。この分解設計により、NaturalSpeech 3は複雑な音声を分解された部分空間で効率的にモデル化し、分割統治的に処理することが可能です。実験結果は、NaturalSpeech 3が品質、類似性、プロソディ、および明瞭性において最先端のTTSシステムを上回ることを示しています。さらに、10億パラメータと20万時間の学習データにスケールすることで、より優れた性能を達成しました。
English
While recent large-scale text-to-speech (TTS) models have achieved significant progress, they still fall short in speech quality, similarity, and prosody. Considering speech intricately encompasses various attributes (e.g., content, prosody, timbre, and acoustic details) that pose significant challenges for generation, a natural idea is to factorize speech into individual subspaces representing different attributes and generate them individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with novel factorized diffusion models to generate natural speech in a zero-shot way. Specifically, 1) we design a neural codec with factorized vector quantization (FVQ) to disentangle speech waveform into subspaces of content, prosody, timbre, and acoustic details; 2) we propose a factorized diffusion model to generate attributes in each subspace following its corresponding prompt. With this factorization design, NaturalSpeech 3 can effectively and efficiently model the intricate speech with disentangled subspaces in a divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the state-of-the-art TTS systems on quality, similarity, prosody, and intelligibility. Furthermore, we achieve better performance by scaling to 1B parameters and 200K hours of training data.

Summary

AI-Generated Summary

PDF383December 15, 2024