ChatPaper.aiChatPaper

MegaTTS 3: Sparse-Alignment-verstärkter latenter Diffusions-Transformer für Zero-Shot-Sprachsynthese

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

February 26, 2025
Autoren: Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao
cs.AI

Zusammenfassung

Während neuere Zero-Shot-Text-to-Speech (TTS)-Modelle die Sprachqualität und Ausdruckskraft erheblich verbessert haben, leiden Mainstream-Systeme weiterhin unter Problemen im Zusammenhang mit der Modellierung der Sprach-Text-Ausrichtung: 1) Modelle ohne explizite Sprach-Text-Ausrichtungsmodellierung zeigen weniger Robustheit, insbesondere bei schwierigen Sätzen in praktischen Anwendungen; 2) vordefinierte, auf Ausrichtung basierende Modelle leiden unter den Natürlichkeitsbeschränkungen von erzwungenen Ausrichtungen. Dieses Papier stellt MegaTTS 3 vor, ein TTS-System mit einem innovativen spärlichen Ausrichtungsalgorithmus, der den latenten Diffusionstransformer (DiT) steuert. Konkret liefern wir MegaTTS 3 spärliche Ausrichtungsgrenzen, um die Schwierigkeit der Ausrichtung zu verringern, ohne den Suchraum einzuschränken, und so eine hohe Natürlichkeit zu erreichen. Darüber hinaus verwenden wir eine Multi-Condition-Classifier-Free-Guidance-Strategie zur Anpassung der Akzentintensität und setzen die stückweise korrigierte Flusstechnik ein, um den Generierungsprozess zu beschleunigen. Experimente zeigen, dass MegaTTS 3 die state-of-the-art Zero-Shot-TTS-Sprachqualität erreicht und eine hochflexible Steuerung der Akzentintensität unterstützt. Bemerkenswerterweise kann unser System hochwertige einminütige Sprachaufnahmen mit nur 8 Sampling-Schritten erzeugen. Audiobeispiele sind unter https://sditdemo.github.io/sditdemo/ verfügbar.
English
While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces MegaTTS 3, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of alignment without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.

Summary

AI-Generated Summary

PDF122April 3, 2025