ChatPaper.aiChatPaper

F5-TTS : Un conteur qui imite une parole fluide et fidèle avec une correspondance de flux.

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

October 9, 2024
Auteurs: Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
cs.AI

Résumé

Cet article présente F5-TTS, un système entièrement non-autorégressif de synthèse vocale basé sur la correspondance de flux avec le Transformateur de Diffusion (DiT). Sans nécessiter de conceptions complexes telles qu'un modèle de durée, un codeur de texte et un alignement de phonèmes, l'entrée de texte est simplement complétée avec des jetons de remplissage pour atteindre la même longueur que l'entrée vocale, puis le débruitage est effectué pour la génération de la parole, ce qui a été initialement prouvé réalisable par E2 TTS. Cependant, la conception originale de E2 TTS rend difficile à suivre en raison de sa convergence lente et de sa faible robustesse. Pour résoudre ces problèmes, nous modélisons d'abord l'entrée avec ConvNeXt pour affiner la représentation du texte, facilitant ainsi son alignement avec la parole. Nous proposons en outre une stratégie d'échantillonnage Sway au moment de l'inférence, qui améliore significativement les performances et l'efficacité de notre modèle. Cette stratégie d'échantillonnage pour l'étape de flux peut être facilement appliquée aux modèles existants basés sur la correspondance de flux sans nécessiter de nouvelle formation. Notre conception permet une formation plus rapide et atteint un RTF d'inférence de 0,15, ce qui est nettement amélioré par rapport aux modèles de synthèse vocale basés sur la diffusion de pointe. Entraîné sur un ensemble de données multilingue public de 100 000 heures, notre système Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) présente une capacité naturelle et expressive hors pair, une capacité de changement de code fluide et une efficacité de contrôle de vitesse. Des échantillons de démonstration sont disponibles sur https://SWivid.github.io/F5-TTS. Nous publions l'ensemble du code et des points de contrôle pour promouvoir le développement communautaire.
English
This paper introduces F5-TTS, a fully non-autoregressive text-to-speech system based on flow matching with Diffusion Transformer (DiT). Without requiring complex designs such as duration model, text encoder, and phoneme alignment, the text input is simply padded with filler tokens to the same length as input speech, and then the denoising is performed for speech generation, which was originally proved feasible by E2 TTS. However, the original design of E2 TTS makes it hard to follow due to its slow convergence and low robustness. To address these issues, we first model the input with ConvNeXt to refine the text representation, making it easy to align with the speech. We further propose an inference-time Sway Sampling strategy, which significantly improves our model's performance and efficiency. This sampling strategy for flow step can be easily applied to existing flow matching based models without retraining. Our design allows faster training and achieves an inference RTF of 0.15, which is greatly improved compared to state-of-the-art diffusion-based TTS models. Trained on a public 100K hours multilingual dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless code-switching capability, and speed control efficiency. Demo samples can be found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints to promote community development.

Summary

AI-Generated Summary

PDF477November 16, 2024