F5-TTS:流暢で忠実な音声を模倣するフェアリーテイラー
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
October 9, 2024
著者: Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
cs.AI
要旨
本論文では、Diffusion Transformer(DiT)を用いたフローマッチングに基づく完全な非自己回帰テキスト読み上げシステムであるF5-TTSを紹介します。このシステムは、デュレーションモデルやテキストエンコーダー、音素の整列などの複雑な設計を必要とせず、テキスト入力は単純にフィラートークンで埋められ、入力音声と同じ長さになります。その後、ノイズを除去して音声生成が行われます。この手法は、元々E2 TTSによって実現可能であることが証明されています。ただし、E2 TTSの元の設計は収束が遅く、頑健性が低いため、追従が難しいとされています。これらの問題に対処するために、まずConvNeXtを使用して入力をモデリングし、テキスト表現を洗練させ、音声と簡単に整列できるようにします。さらに、推論時のSway Sampling戦略を提案し、モデルの性能と効率を大幅に改善します。このフローステップのサンプリング戦略は、再トレーニングなしで既存のフローマッチングベースのモデルに簡単に適用できます。私たちの設計により、より高速なトレーニングが可能となり、推論RTFは0.15となり、最先端の拡散ベースのTTSモデルと比較して大幅に改善されています。公開された100K時間の多言語データセットでトレーニングされたFairytaler Fakes Fluent and Faithful speech with Flow matching(F5-TTS)は、非常に自然で表現豊かなゼロショット能力、シームレスなコード切り替え能力、および速度制御の効率を示します。デモサンプルはhttps://SWivid.github.io/F5-TTSで入手できます。私たちはすべてのコードとチェックポイントを公開して、コミュニティの開発を促進します。
English
This paper introduces F5-TTS, a fully non-autoregressive text-to-speech
system based on flow matching with Diffusion Transformer (DiT). Without
requiring complex designs such as duration model, text encoder, and phoneme
alignment, the text input is simply padded with filler tokens to the same
length as input speech, and then the denoising is performed for speech
generation, which was originally proved feasible by E2 TTS. However, the
original design of E2 TTS makes it hard to follow due to its slow convergence
and low robustness. To address these issues, we first model the input with
ConvNeXt to refine the text representation, making it easy to align with the
speech. We further propose an inference-time Sway Sampling strategy, which
significantly improves our model's performance and efficiency. This sampling
strategy for flow step can be easily applied to existing flow matching based
models without retraining. Our design allows faster training and achieves an
inference RTF of 0.15, which is greatly improved compared to state-of-the-art
diffusion-based TTS models. Trained on a public 100K hours multilingual
dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching
(F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless
code-switching capability, and speed control efficiency. Demo samples can be
found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints
to promote community development.Summary
AI-Generated Summary