自然語音 3:使用分解編解碼器和擴散模型的零-shot語音合成NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and
Diffusion Models
儘管最近大規模的文本轉語音(TTS)模型取得了顯著進展,但在語音品質、相似度和韻律方面仍存在不足。考慮到語音複雜地包含各種屬性(例如內容、韻律、音色和聲學細節),這對生成構成了重大挑戰,一個自然的想法是將語音因子化為代表不同屬性的個別子空間,並分別生成它們。受此激勵,我們提出了NaturalSpeech 3,一個具有新型因子化擴散模型的TTS系統,以零樣本方式生成自然語音。具體而言,1)我們設計了一個具有因子化向量量化(FVQ)的神經編解碼器,將語音波形解開為內容、韻律、音色和聲學細節的子空間;2)我們提出了一個因子化擴散模型,根據其對應的提示生成每個子空間中的屬性。通過這種因子化設計,NaturalSpeech 3可以以分而治之的方式有效且高效地建模複雜的語音,其中子空間已解開。實驗表明,NaturalSpeech 3在品質、相似度、韻律和可懂性方面優於最先進的TTS系統。此外,通過擴展至10億參數和20萬小時的訓練數據,我們實現了更好的性能。