NaturalSpeech 3 : Synthèse vocale Zero-Shot avec modèles de codec factorisé et de diffusionNaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and
Diffusion Models
Bien que les modèles récents de synthèse vocale (TTS) à grande échelle aient réalisé des progrès significatifs, ils restent encore limités en termes de qualité vocale, de similarité et de prosodie. Considérant que la parole englobe de manière complexe divers attributs (par exemple, le contenu, la prosodie, le timbre et les détails acoustiques) qui posent des défis majeurs pour la génération, une idée naturelle est de factoriser la parole en sous-espaces individuels représentant différents attributs et de les générer séparément. Motivés par cette approche, nous proposons NaturalSpeech 3, un système TTS utilisant des modèles de diffusion factorisés novateurs pour générer une parole naturelle de manière zero-shot. Plus précisément, 1) nous concevons un codec neuronal avec quantification vectorielle factorisée (FVQ) pour décomposer la forme d'onde vocale en sous-espaces de contenu, prosodie, timbre et détails acoustiques ; 2) nous proposons un modèle de diffusion factorisé pour générer les attributs dans chaque sous-espace en suivant son prompt correspondant. Grâce à cette conception factorisée, NaturalSpeech 3 peut modéliser efficacement et de manière efficiente la parole complexe avec des sous-espaces décomposés, suivant une approche de type "diviser pour régner". Les expériences montrent que NaturalSpeech 3 surpasse les systèmes TTS de pointe en termes de qualité, similarité, prosodie et intelligibilité. De plus, nous obtenons de meilleures performances en augmentant l'échelle à 1 milliard de paramètres et 200 000 heures de données d'entraînement.