F5-TTS: Um Contador de Histórias que Simula Fala Fluente e Fiel com Correspondência de Fluxo
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
October 9, 2024
Autores: Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
cs.AI
Resumo
Este artigo apresenta o F5-TTS, um sistema totalmente não autoregressivo de texto para fala baseado em correspondência de fluxo com o Transformador de Difusão (DiT). Sem exigir projetos complexos como modelo de duração, codificador de texto e alinhamento fonético, a entrada de texto é simplesmente preenchida com tokens de preenchimento até o mesmo comprimento que a fala de entrada, e então a desruído é realizada para geração de fala, o que foi originalmente comprovado como viável pelo E2 TTS. No entanto, o design original do E2 TTS torna difícil de seguir devido à sua convergência lenta e baixa robustez. Para abordar essas questões, primeiro modelamos a entrada com ConvNeXt para refinar a representação do texto, facilitando o alinhamento com a fala. Além disso, propomos uma estratégia de Amostragem de Balanço no tempo de inferência, que melhora significativamente o desempenho e eficiência de nosso modelo. Esta estratégia de amostragem para passo de fluxo pode ser facilmente aplicada a modelos existentes baseados em correspondência de fluxo sem necessidade de retreinamento. Nosso design permite um treinamento mais rápido e alcança um RTF de inferência de 0,15, o que é significativamente melhorado em comparação com os modelos de TTS baseados em difusão de última geração. Treinado em um conjunto de dados multilíngue público de 100 mil horas, nosso Fairytaler Fakes Fluent e Faithful speech com correspondência de fluxo (F5-TTS) exibe uma capacidade altamente natural e expressiva de zero-shot, capacidade de alternância de código sem interrupções e eficiência de controle de velocidade. Amostras de demonstração podem ser encontradas em https://SWivid.github.io/F5-TTS. Disponibilizamos todo o código e checkpoints para promover o desenvolvimento comunitário.
English
This paper introduces F5-TTS, a fully non-autoregressive text-to-speech
system based on flow matching with Diffusion Transformer (DiT). Without
requiring complex designs such as duration model, text encoder, and phoneme
alignment, the text input is simply padded with filler tokens to the same
length as input speech, and then the denoising is performed for speech
generation, which was originally proved feasible by E2 TTS. However, the
original design of E2 TTS makes it hard to follow due to its slow convergence
and low robustness. To address these issues, we first model the input with
ConvNeXt to refine the text representation, making it easy to align with the
speech. We further propose an inference-time Sway Sampling strategy, which
significantly improves our model's performance and efficiency. This sampling
strategy for flow step can be easily applied to existing flow matching based
models without retraining. Our design allows faster training and achieves an
inference RTF of 0.15, which is greatly improved compared to state-of-the-art
diffusion-based TTS models. Trained on a public 100K hours multilingual
dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching
(F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless
code-switching capability, and speed control efficiency. Demo samples can be
found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints
to promote community development.