ChatPaper.aiChatPaper

MegaTTS 3: Transformador de Difusión Latente con Alineación Dispersa Mejorada para Síntesis de Voz en Cero-Shot

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

February 26, 2025
Autores: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI

Resumen

Si bien los modelos recientes de texto a voz (TTS) de cero disparos han mejorado significativamente la calidad y expresividad del habla, los sistemas principales aún presentan problemas relacionados con el modelado de alineación entre habla y texto: 1) los modelos sin un modelado explícito de alineación habla-texto muestran menor robustez, especialmente para oraciones complejas en aplicaciones prácticas; 2) los modelos basados en alineaciones predefinidas sufren limitaciones de naturalidad debido a las alineaciones forzadas. Este artículo presenta MegaTTS 3, un sistema TTS que incorpora un innovador algoritmo de alineación dispersa que guía al transformador de difusión latente (DiT). Específicamente, proporcionamos límites de alineación dispersa a MegaTTS 3 para reducir la dificultad de la alineación sin limitar el espacio de búsqueda, logrando así una alta naturalidad. Además, empleamos una estrategia de guía libre de clasificadores multicondicional para ajustar la intensidad del acento y adoptamos la técnica de flujo rectificado por segmentos para acelerar el proceso de generación. Los experimentos demuestran que MegaTTS 3 alcanza la mejor calidad de habla TTS de cero disparos y permite un control altamente flexible sobre la intensidad del acento. Cabe destacar que nuestro sistema puede generar habla de alta calidad de un minuto con solo 8 pasos de muestreo. Las muestras de audio están disponibles en https://sditdemo.github.io/sditdemo/.
English
While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces MegaTTS 3, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of alignment without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.

Summary

AI-Generated Summary

PDF122April 3, 2025