ChatPaper.aiChatPaper

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer voor Zero-Shot Spraaksynthese

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

February 26, 2025
Auteurs: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI

Samenvatting

Hoewel recente zero-shot tekst-naar-spraak (TTS) modellen de spraakkwaliteit en expressiviteit aanzienlijk hebben verbeterd, kampen mainstream systemen nog steeds met problemen gerelateerd aan de modellering van spraak-tekst-uitlijning: 1) modellen zonder expliciete spraak-tekst-uitlijning modellering vertonen minder robuustheid, vooral voor moeilijke zinnen in praktische toepassingen; 2) vooraf gedefinieerde uitlijning-gebaseerde modellen lijden onder natuurlijkheidsbeperkingen van geforceerde uitlijningen. Dit artikel introduceert MegaTTS 3, een TTS-systeem met een innovatief spaarzaam uitlijningsalgoritme dat de latente diffusie transformer (DiT) begeleidt. Specifiek bieden we spaarzame uitlijningsgrenzen aan MegaTTS 3 om de moeilijkheid van uitlijning te verminderen zonder de zoekruimte te beperken, waardoor een hoge natuurlijkheid wordt bereikt. Bovendien gebruiken we een multi-condition classifier-free guidance strategie voor accentintensiteitsaanpassing en passen we de stukgewijs gecorrigeerde flow-techniek toe om het generatieproces te versnellen. Experimenten tonen aan dat MegaTTS 3 state-of-the-art zero-shot TTS-spraakkwaliteit bereikt en zeer flexibele controle over accentintensiteit ondersteunt. Opmerkelijk is dat ons systeem hoogwaardige spraak van één minuut kan genereren met slechts 8 samplingstappen. Audiovoorbeelden zijn beschikbaar op https://sditdemo.github.io/sditdemo/.
English
While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces MegaTTS 3, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of alignment without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.

Summary

AI-Generated Summary

PDF122April 3, 2025