MegaTTS 3: Transformador de Difusão Latente com Alinhamento Esparsificado Aprimorado para Síntese de Fala Zero-Shot
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis
February 26, 2025
Autores: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI
Resumo
Embora os modelos recentes de texto-para-fala (TTS) zero-shot tenham melhorado significativamente a qualidade e a expressividade da fala, os sistemas convencionais ainda enfrentam problemas relacionados à modelagem do alinhamento fala-texto: 1) modelos sem modelagem explícita de alinhamento fala-texto exibem menor robustez, especialmente para frases complexas em aplicações práticas; 2) modelos baseados em alinhamentos predefinidos sofrem com restrições de naturalidade devido a alinhamentos forçados. Este artigo apresenta o MegaTTS 3, um sistema TTS que incorpora um algoritmo inovador de alinhamento esparso que orienta o transformer de difusão latente (DiT). Especificamente, fornecemos limites de alinhamento esparso ao MegaTTS 3 para reduzir a dificuldade de alinhamento sem limitar o espaço de busca, alcançando assim alta naturalidade. Além disso, empregamos uma estratégia de orientação livre de classificador multicondicional para ajustar a intensidade do sotaque e adotamos a técnica de fluxo retificado por partes para acelerar o processo de geração. Experimentos demonstram que o MegaTTS 3 alcança a qualidade de fala zero-shot TTS mais avançada e oferece controle altamente flexível sobre a intensidade do sotaque. Notavelmente, nosso sistema pode gerar fala de alta qualidade com um minuto de duração usando apenas 8 passos de amostragem. Amostras de áudio estão disponíveis em https://sditdemo.github.io/sditdemo/.
English
While recent zero-shot text-to-speech (TTS) models have significantly
improved speech quality and expressiveness, mainstream systems still suffer
from issues related to speech-text alignment modeling: 1) models without
explicit speech-text alignment modeling exhibit less robustness, especially for
hard sentences in practical applications; 2) predefined alignment-based models
suffer from naturalness constraints of forced alignments. This paper introduces
MegaTTS 3, a TTS system featuring an innovative sparse alignment
algorithm that guides the latent diffusion transformer (DiT). Specifically, we
provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of
alignment without limiting the search space, thereby achieving high
naturalness. Moreover, we employ a multi-condition classifier-free guidance
strategy for accent intensity adjustment and adopt the piecewise rectified flow
technique to accelerate the generation process. Experiments demonstrate that
MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports
highly flexible control over accent intensity. Notably, our system can generate
high-quality one-minute speech with only 8 sampling steps. Audio samples are
available at https://sditdemo.github.io/sditdemo/.Summary
AI-Generated Summary