NaturalSpeech 3 : Synthèse vocale Zero-Shot avec modèles de codec factorisé et de diffusion
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
March 5, 2024
papers.authors: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI
papers.abstract
Bien que les modèles récents de synthèse vocale (TTS) à grande échelle aient réalisé des progrès significatifs, ils restent encore limités en termes de qualité vocale, de similarité et de prosodie. Considérant que la parole englobe de manière complexe divers attributs (par exemple, le contenu, la prosodie, le timbre et les détails acoustiques) qui posent des défis majeurs pour la génération, une idée naturelle est de factoriser la parole en sous-espaces individuels représentant différents attributs et de les générer séparément. Motivés par cette approche, nous proposons NaturalSpeech 3, un système TTS utilisant des modèles de diffusion factorisés novateurs pour générer une parole naturelle de manière zero-shot. Plus précisément, 1) nous concevons un codec neuronal avec quantification vectorielle factorisée (FVQ) pour décomposer la forme d'onde vocale en sous-espaces de contenu, prosodie, timbre et détails acoustiques ; 2) nous proposons un modèle de diffusion factorisé pour générer les attributs dans chaque sous-espace en suivant son prompt correspondant. Grâce à cette conception factorisée, NaturalSpeech 3 peut modéliser efficacement et de manière efficiente la parole complexe avec des sous-espaces décomposés, suivant une approche de type "diviser pour régner". Les expériences montrent que NaturalSpeech 3 surpasse les systèmes TTS de pointe en termes de qualité, similarité, prosodie et intelligibilité. De plus, nous obtenons de meilleures performances en augmentant l'échelle à 1 milliard de paramètres et 200 000 heures de données d'entraînement.
English
While recent large-scale text-to-speech (TTS) models have achieved
significant progress, they still fall short in speech quality, similarity, and
prosody. Considering speech intricately encompasses various attributes (e.g.,
content, prosody, timbre, and acoustic details) that pose significant
challenges for generation, a natural idea is to factorize speech into
individual subspaces representing different attributes and generate them
individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with
novel factorized diffusion models to generate natural speech in a zero-shot
way. Specifically, 1) we design a neural codec with factorized vector
quantization (FVQ) to disentangle speech waveform into subspaces of content,
prosody, timbre, and acoustic details; 2) we propose a factorized diffusion
model to generate attributes in each subspace following its corresponding
prompt. With this factorization design, NaturalSpeech 3 can effectively and
efficiently model the intricate speech with disentangled subspaces in a
divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the
state-of-the-art TTS systems on quality, similarity, prosody, and
intelligibility. Furthermore, we achieve better performance by scaling to 1B
parameters and 200K hours of training data.