MegaTTS 3 : Transformateur à Diffusion Latente Amélioré par Alignement Sparse pour la Synthèse Vocale Zero-Shot
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis
February 26, 2025
Auteurs: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI
Résumé
Bien que les modèles récents de synthèse vocale (TTS) zero-shot aient considérablement amélioré la qualité et l'expressivité de la parole, les systèmes dominants continuent de souffrir de problèmes liés à la modélisation de l'alignement parole-texte : 1) les modèles sans modélisation explicite de l'alignement parole-texte présentent une robustesse moindre, en particulier pour les phrases complexes dans les applications pratiques ; 2) les modèles basés sur des alignements prédéfinis sont limités par les contraintes de naturel imposées par les alignements forcés. Cet article présente MegaTTS 3, un système TTS doté d'un algorithme innovant d'alignement parcimonieux qui guide le transformateur de diffusion latente (DiT). Plus précisément, nous fournissons des limites d'alignement parcimonieuses à MegaTTS 3 pour réduire la difficulté de l'alignement sans limiter l'espace de recherche, permettant ainsi d'atteindre un haut niveau de naturel. De plus, nous utilisons une stratégie de guidage sans classifieur multi-condition pour ajuster l'intensité de l'accent et adoptons la technique de flux rectifié par morceaux pour accélérer le processus de génération. Les expériences montrent que MegaTTS 3 atteint une qualité de parole zero-shot TTS de pointe et permet un contrôle très flexible de l'intensité de l'accent. Notamment, notre système peut générer une parole de haute qualité d'une minute avec seulement 8 étapes d'échantillonnage. Des échantillons audio sont disponibles à l'adresse https://sditdemo.github.io/sditdemo/.
English
While recent zero-shot text-to-speech (TTS) models have significantly
improved speech quality and expressiveness, mainstream systems still suffer
from issues related to speech-text alignment modeling: 1) models without
explicit speech-text alignment modeling exhibit less robustness, especially for
hard sentences in practical applications; 2) predefined alignment-based models
suffer from naturalness constraints of forced alignments. This paper introduces
MegaTTS 3, a TTS system featuring an innovative sparse alignment
algorithm that guides the latent diffusion transformer (DiT). Specifically, we
provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of
alignment without limiting the search space, thereby achieving high
naturalness. Moreover, we employ a multi-condition classifier-free guidance
strategy for accent intensity adjustment and adopt the piecewise rectified flow
technique to accelerate the generation process. Experiments demonstrate that
MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports
highly flexible control over accent intensity. Notably, our system can generate
high-quality one-minute speech with only 8 sampling steps. Audio samples are
available at https://sditdemo.github.io/sditdemo/.Summary
AI-Generated Summary