MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer voor Zero-Shot Spraaksynthese

Samenvatting

Hoewel recente zero-shot tekst-naar-spraak (TTS) modellen de spraakkwaliteit en expressiviteit aanzienlijk hebben verbeterd, kampen mainstream systemen nog steeds met problemen gerelateerd aan de modellering van spraak-tekst-uitlijning: 1) modellen zonder expliciete spraak-tekst-uitlijning modellering vertonen minder robuustheid, vooral voor moeilijke zinnen in praktische toepassingen; 2) vooraf gedefinieerde uitlijning-gebaseerde modellen lijden onder natuurlijkheidsbeperkingen van geforceerde uitlijningen. Dit artikel introduceert MegaTTS 3, een TTS-systeem met een innovatief spaarzaam uitlijningsalgoritme dat de latente diffusie transformer (DiT) begeleidt. Specifiek bieden we spaarzame uitlijningsgrenzen aan MegaTTS 3 om de moeilijkheid van uitlijning te verminderen zonder de zoekruimte te beperken, waardoor een hoge natuurlijkheid wordt bereikt. Bovendien gebruiken we een multi-condition classifier-free guidance strategie voor accentintensiteitsaanpassing en passen we de stukgewijs gecorrigeerde flow-techniek toe om het generatieproces te versnellen. Experimenten tonen aan dat MegaTTS 3 state-of-the-art zero-shot TTS-spraakkwaliteit bereikt en zeer flexibele controle over accentintensiteit ondersteunt. Opmerkelijk is dat ons systeem hoogwaardige spraak van één minuut kan genereren met slechts 8 samplingstappen. Audiovoorbeelden zijn beschikbaar op https://sditdemo.github.io/sditdemo/.

English

While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces MegaTTS 3, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of alignment without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer voor Zero-Shot Spraaksynthese

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Samenvatting

Support