F5-TTS: Ein Geschichtenerzähler, der fließende und treue Sprache mit Fluss imitiert.
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
October 9, 2024
Autoren: Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
cs.AI
Zusammenfassung
Dieses Paper stellt F5-TTS vor, ein vollständig nicht-autoregressives Text-zu-Sprache-System, das auf Flussabgleich mit Diffusionstransformator (DiT) basiert. Ohne komplexe Designs wie Dauermodell, Textkodierer und Phonemausrichtung zu benötigen, wird der Texteingang einfach mit Fülltokens auf die gleiche Länge wie der Spracheingang gepolstert, und dann wird das Rauschen für die Spracherzeugung durchgeführt, was ursprünglich von E2 TTS als machbar erwiesen wurde. Allerdings macht das ursprüngliche Design von E2 TTS das Folgen aufgrund seiner langsamen Konvergenz und geringen Robustheit schwierig. Um diese Probleme anzugehen, modellieren wir zunächst den Eingang mit ConvNeXt, um die Textrepräsentation zu verfeinern und sie leicht mit der Sprache abzugleichen. Wir schlagen außerdem eine Inferenzzeit-Sway-Sampling-Strategie vor, die die Leistung und Effizienz unseres Modells signifikant verbessert. Diese Sampling-Strategie für den Flussschritt kann leicht auf bestehende auf Flussabgleich basierende Modelle angewendet werden, ohne dass eine Neuschulung erforderlich ist. Unser Design ermöglicht ein schnelleres Training und erreicht eine Inferenz-RTF von 0,15, was im Vergleich zu state-of-the-art diffusionsbasierten TTS-Modellen erheblich verbessert ist. Trainiert auf einem öffentlichen 100.000 Stunden multilingualen Datensatz, zeigt unser Fairytaler Fakes Fluent and Faithful Speech with Flow Matching (F5-TTS) eine sehr natürliche und ausdrucksstarke Zero-Shot-Fähigkeit, nahtlose Code-Switching-Fähigkeit und Effizienz bei der Geschwindigkeitssteuerung. Demomuster finden Sie unter https://SWivid.github.io/F5-TTS. Wir veröffentlichen alle Codes und Kontrollpunkte, um die Entwicklung in der Community zu fördern.
English
This paper introduces F5-TTS, a fully non-autoregressive text-to-speech
system based on flow matching with Diffusion Transformer (DiT). Without
requiring complex designs such as duration model, text encoder, and phoneme
alignment, the text input is simply padded with filler tokens to the same
length as input speech, and then the denoising is performed for speech
generation, which was originally proved feasible by E2 TTS. However, the
original design of E2 TTS makes it hard to follow due to its slow convergence
and low robustness. To address these issues, we first model the input with
ConvNeXt to refine the text representation, making it easy to align with the
speech. We further propose an inference-time Sway Sampling strategy, which
significantly improves our model's performance and efficiency. This sampling
strategy for flow step can be easily applied to existing flow matching based
models without retraining. Our design allows faster training and achieves an
inference RTF of 0.15, which is greatly improved compared to state-of-the-art
diffusion-based TTS models. Trained on a public 100K hours multilingual
dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching
(F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless
code-switching capability, and speed control efficiency. Demo samples can be
found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints
to promote community development.Summary
AI-Generated Summary