F5-TTS: Un Cuentacuentos que Simula un Habla Fluida y Fiel con Coincidencia de Fluidez
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
October 9, 2024
Autores: Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
cs.AI
Resumen
Este documento presenta F5-TTS, un sistema de texto a voz completamente no autoregresivo basado en el emparejamiento de flujo con el Transformador de Difusión (DiT). Sin necesidad de diseños complejos como un modelo de duración, codificador de texto y alineación de fonemas, la entrada de texto simplemente se rellena con tokens de relleno hasta la misma longitud que la entrada de voz, y luego se realiza el proceso de eliminación de ruido para la generación de voz, lo cual fue originalmente demostrado como factible por E2 TTS. Sin embargo, el diseño original de E2 TTS dificulta su seguimiento debido a su lenta convergencia y baja robustez. Para abordar estos problemas, primero modelamos la entrada con ConvNeXt para refinar la representación del texto, facilitando su alineación con la voz. Además, proponemos una estrategia de Muestreo de Balanceo en tiempo de inferencia, que mejora significativamente el rendimiento y la eficiencia de nuestro modelo. Esta estrategia de muestreo para el paso de flujo se puede aplicar fácilmente a modelos existentes basados en emparejamiento de flujo sin necesidad de volver a entrenarlos. Nuestro diseño permite un entrenamiento más rápido y logra un RTF de inferencia de 0.15, lo cual es una mejora considerable en comparación con los modelos de TTS basados en difusión más avanzados. Entrenado en un conjunto de datos multilingüe público de 100,000 horas, nuestro Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) exhibe una capacidad de cero disparos altamente natural y expresiva, una capacidad de cambio de código sin interrupciones y una eficiencia en el control de la velocidad. Se pueden encontrar muestras de demostración en https://SWivid.github.io/F5-TTS. Publicamos todo el código y los puntos de control para fomentar el desarrollo comunitario.
English
This paper introduces F5-TTS, a fully non-autoregressive text-to-speech
system based on flow matching with Diffusion Transformer (DiT). Without
requiring complex designs such as duration model, text encoder, and phoneme
alignment, the text input is simply padded with filler tokens to the same
length as input speech, and then the denoising is performed for speech
generation, which was originally proved feasible by E2 TTS. However, the
original design of E2 TTS makes it hard to follow due to its slow convergence
and low robustness. To address these issues, we first model the input with
ConvNeXt to refine the text representation, making it easy to align with the
speech. We further propose an inference-time Sway Sampling strategy, which
significantly improves our model's performance and efficiency. This sampling
strategy for flow step can be easily applied to existing flow matching based
models without retraining. Our design allows faster training and achieves an
inference RTF of 0.15, which is greatly improved compared to state-of-the-art
diffusion-based TTS models. Trained on a public 100K hours multilingual
dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching
(F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless
code-switching capability, and speed control efficiency. Demo samples can be
found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints
to promote community development.Summary
AI-Generated Summary