ChatPaper.aiChatPaper

MegaTTS 3: Трансформер с латентной диффузией и улучшенным разреженным выравниванием для синтеза речи в условиях zero-shot

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

February 26, 2025
Авторы: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI

Аннотация

Хотя современные модели синтеза речи (TTS) с нулевым обучением значительно улучшили качество и выразительность речи, основные системы по-прежнему сталкиваются с проблемами, связанными с моделированием выравнивания текста и речи: 1) модели без явного моделирования выравнивания демонстрируют меньшую устойчивость, особенно для сложных предложений в практических приложениях; 2) модели, основанные на предопределённом выравнивании, ограничены естественностью принудительного выравнивания. В данной статье представлена MegaTTS 3 — система TTS, использующая инновационный алгоритм разреженного выравнивания, который управляет латентным диффузионным трансформером (DiT). В частности, мы предоставляем MegaTTS 3 границы разреженного выравнивания, чтобы снизить сложность выравнивания, не ограничивая пространство поиска, что позволяет достичь высокой естественности. Кроме того, мы применяем стратегию классификатор-свободного управления с множественными условиями для регулировки интенсивности акцента и используем технику кусочно-линейного исправленного потока для ускорения процесса генерации. Эксперименты показывают, что MegaTTS 3 достигает передового качества речи в задачах TTS с нулевым обучением и поддерживает гибкий контроль над интенсивностью акцента. Примечательно, что наша система способна генерировать высококачественную речь длительностью в одну минуту всего за 8 шагов сэмплирования. Аудиообразцы доступны по ссылке: https://sditdemo.github.io/sditdemo/.
English
While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces MegaTTS 3, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of alignment without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.

Summary

AI-Generated Summary

PDF122April 3, 2025