MegaTTS 3: Transformador de Difusão Latente com Alinhamento Esparsificado Aprimorado para Síntese de Fala Zero-Shot

Resumo

Embora os modelos recentes de texto-para-fala (TTS) zero-shot tenham melhorado significativamente a qualidade e a expressividade da fala, os sistemas convencionais ainda enfrentam problemas relacionados à modelagem do alinhamento fala-texto: 1) modelos sem modelagem explícita de alinhamento fala-texto exibem menor robustez, especialmente para frases complexas em aplicações práticas; 2) modelos baseados em alinhamentos predefinidos sofrem com restrições de naturalidade devido a alinhamentos forçados. Este artigo apresenta o MegaTTS 3, um sistema TTS que incorpora um algoritmo inovador de alinhamento esparso que orienta o transformer de difusão latente (DiT). Especificamente, fornecemos limites de alinhamento esparso ao MegaTTS 3 para reduzir a dificuldade de alinhamento sem limitar o espaço de busca, alcançando assim alta naturalidade. Além disso, empregamos uma estratégia de orientação livre de classificador multicondicional para ajustar a intensidade do sotaque e adotamos a técnica de fluxo retificado por partes para acelerar o processo de geração. Experimentos demonstram que o MegaTTS 3 alcança a qualidade de fala zero-shot TTS mais avançada e oferece controle altamente flexível sobre a intensidade do sotaque. Notavelmente, nosso sistema pode gerar fala de alta qualidade com um minuto de duração usando apenas 8 passos de amostragem. Amostras de áudio estão disponíveis em https://sditdemo.github.io/sditdemo/.

English

While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces MegaTTS 3, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of alignment without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.

MegaTTS 3: Transformador de Difusão Latente com Alinhamento Esparsificado Aprimorado para Síntese de Fala Zero-Shot

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Resumo

Support