F5-TTS: Un narratore di fiabe che falsifica un discorso fluente e fedele con corrispondenza di flusso
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
October 9, 2024
Autori: Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
cs.AI
Abstract
Questo articolo presenta F5-TTS, un sistema di text-to-speech completamente non autoregressivo basato sull'abbinamento di flussi con il Diffusion Transformer (DiT). Senza richiedere progettazioni complesse come un modello di durata, un codificatore di testo e un allineamento fonemico, l'input di testo viene semplicemente riempito con token di riempimento alla stessa lunghezza dell'input vocale, e quindi viene eseguita la denoising per la generazione del parlato, che è stata originariamente dimostrata fattibile da E2 TTS. Tuttavia, il design originale di E2 TTS rende difficile il suo seguito a causa della sua lenta convergenza e bassa robustezza. Per affrontare questi problemi, modelliamo prima l'input con ConvNeXt per perfezionare la rappresentazione del testo, rendendola facile da allineare con il parlato. Proponiamo inoltre una strategia di campionamento Sway durante l'inferenza, che migliora significativamente le prestazioni e l'efficienza del nostro modello. Questa strategia di campionamento per il passaggio di flusso può essere facilmente applicata ai modelli esistenti basati sull'abbinamento di flussi senza necessità di riallenamento. Il nostro design consente una formazione più rapida e raggiunge un RTF di inferenza di 0,15, che è notevolmente migliorato rispetto ai modelli TTS basati sulla diffusione più avanzati. Addestrato su un dataset multilingue pubblico di 100.000 ore, il nostro Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) mostra un'abilità zero-shot altamente naturale ed espressiva, una capacità di cambio di codice senza soluzione di continuità e un'efficienza nel controllo della velocità. Campioni dimostrativi sono disponibili su https://SWivid.github.io/F5-TTS. Rilasciamo tutto il codice e i checkpoint per promuovere lo sviluppo della comunità.
English
This paper introduces F5-TTS, a fully non-autoregressive text-to-speech
system based on flow matching with Diffusion Transformer (DiT). Without
requiring complex designs such as duration model, text encoder, and phoneme
alignment, the text input is simply padded with filler tokens to the same
length as input speech, and then the denoising is performed for speech
generation, which was originally proved feasible by E2 TTS. However, the
original design of E2 TTS makes it hard to follow due to its slow convergence
and low robustness. To address these issues, we first model the input with
ConvNeXt to refine the text representation, making it easy to align with the
speech. We further propose an inference-time Sway Sampling strategy, which
significantly improves our model's performance and efficiency. This sampling
strategy for flow step can be easily applied to existing flow matching based
models without retraining. Our design allows faster training and achieves an
inference RTF of 0.15, which is greatly improved compared to state-of-the-art
diffusion-based TTS models. Trained on a public 100K hours multilingual
dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching
(F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless
code-switching capability, and speed control efficiency. Demo samples can be
found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints
to promote community development.