ChatPaper.aiChatPaper

MegaTTS 3: Transformador de Difusão Latente com Alinhamento Esparsificado Aprimorado para Síntese de Fala Zero-Shot

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

February 26, 2025
Autores: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI

Resumo

Embora os modelos recentes de texto-para-fala (TTS) zero-shot tenham melhorado significativamente a qualidade e a expressividade da fala, os sistemas convencionais ainda enfrentam problemas relacionados à modelagem do alinhamento fala-texto: 1) modelos sem modelagem explícita de alinhamento fala-texto exibem menor robustez, especialmente para frases complexas em aplicações práticas; 2) modelos baseados em alinhamentos predefinidos sofrem com restrições de naturalidade devido a alinhamentos forçados. Este artigo apresenta o MegaTTS 3, um sistema TTS que incorpora um algoritmo inovador de alinhamento esparso que orienta o transformer de difusão latente (DiT). Especificamente, fornecemos limites de alinhamento esparso ao MegaTTS 3 para reduzir a dificuldade de alinhamento sem limitar o espaço de busca, alcançando assim alta naturalidade. Além disso, empregamos uma estratégia de orientação livre de classificador multicondicional para ajustar a intensidade do sotaque e adotamos a técnica de fluxo retificado por partes para acelerar o processo de geração. Experimentos demonstram que o MegaTTS 3 alcança a qualidade de fala zero-shot TTS mais avançada e oferece controle altamente flexível sobre a intensidade do sotaque. Notavelmente, nosso sistema pode gerar fala de alta qualidade com um minuto de duração usando apenas 8 passos de amostragem. Amostras de áudio estão disponíveis em https://sditdemo.github.io/sditdemo/.
English
While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces MegaTTS 3, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of alignment without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.

Summary

AI-Generated Summary

PDF122April 3, 2025