MegaTTS 3: Sparse-Alignment-verstärkter latenter Diffusions-Transformer für Zero-Shot-Sprachsynthese

Zusammenfassung

Während neuere Zero-Shot-Text-to-Speech (TTS)-Modelle die Sprachqualität und Ausdruckskraft erheblich verbessert haben, leiden Mainstream-Systeme weiterhin unter Problemen im Zusammenhang mit der Modellierung der Sprach-Text-Ausrichtung: 1) Modelle ohne explizite Sprach-Text-Ausrichtungsmodellierung zeigen weniger Robustheit, insbesondere bei schwierigen Sätzen in praktischen Anwendungen; 2) vordefinierte, auf Ausrichtung basierende Modelle leiden unter den Natürlichkeitsbeschränkungen von erzwungenen Ausrichtungen. Dieses Papier stellt MegaTTS 3 vor, ein TTS-System mit einem innovativen spärlichen Ausrichtungsalgorithmus, der den latenten Diffusionstransformer (DiT) steuert. Konkret liefern wir MegaTTS 3 spärliche Ausrichtungsgrenzen, um die Schwierigkeit der Ausrichtung zu verringern, ohne den Suchraum einzuschränken, und so eine hohe Natürlichkeit zu erreichen. Darüber hinaus verwenden wir eine Multi-Condition-Classifier-Free-Guidance-Strategie zur Anpassung der Akzentintensität und setzen die stückweise korrigierte Flusstechnik ein, um den Generierungsprozess zu beschleunigen. Experimente zeigen, dass MegaTTS 3 die state-of-the-art Zero-Shot-TTS-Sprachqualität erreicht und eine hochflexible Steuerung der Akzentintensität unterstützt. Bemerkenswerterweise kann unser System hochwertige einminütige Sprachaufnahmen mit nur 8 Sampling-Schritten erzeugen. Audiobeispiele sind unter https://sditdemo.github.io/sditdemo/ verfügbar.

English

While recent zero-shot text-to-speech (TTS) models have significantly improved speech quality and expressiveness, mainstream systems still suffer from issues related to speech-text alignment modeling: 1) models without explicit speech-text alignment modeling exhibit less robustness, especially for hard sentences in practical applications; 2) predefined alignment-based models suffer from naturalness constraints of forced alignments. This paper introduces MegaTTS 3, a TTS system featuring an innovative sparse alignment algorithm that guides the latent diffusion transformer (DiT). Specifically, we provide sparse alignment boundaries to MegaTTS 3 to reduce the difficulty of alignment without limiting the search space, thereby achieving high naturalness. Moreover, we employ a multi-condition classifier-free guidance strategy for accent intensity adjustment and adopt the piecewise rectified flow technique to accelerate the generation process. Experiments demonstrate that MegaTTS 3 achieves state-of-the-art zero-shot TTS speech quality and supports highly flexible control over accent intensity. Notably, our system can generate high-quality one-minute speech with only 8 sampling steps. Audio samples are available at https://sditdemo.github.io/sditdemo/.