自然语音3:使用分解编解码器和扩散模型进行零-shot语音合成NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and
Diffusion Models
尽管最近的大规模文本转语音(TTS)模型取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音复杂地涵盖了各种属性(例如内容、韵律、音色和声学细节),这给生成带来了重大挑战,一个自然的想法是将语音因子分解为代表不同属性的个体子空间,并分别生成它们。受此启发,我们提出了NaturalSpeech 3,这是一个具有新颖的因子扩散模型的TTS系统,可以以零-shot方式生成自然语音。具体而言,1)我们设计了一个具有因子化向量量化(FVQ)的神经编解码器,将语音波形分解为内容、韵律、音色和声学细节的子空间;2)我们提出了一个因子化扩散模型,根据其对应的提示生成每个子空间中的属性。通过这种因子化设计,NaturalSpeech 3可以以一种分而治之的方式有效且高效地对复杂的语音进行建模。实验证明,NaturalSpeech 3在质量、相似度、韵律和可懂性方面优于最先进的TTS系统。此外,通过扩展至10亿参数和20万小时的训练数据,我们实现了更好的性能。