F5-TTS: 술책적이고 충실한 말을 위조하는 Fairytaler, 플로우 매칭과 함께
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
October 9, 2024
저자: Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
cs.AI
초록
본 논문은 Diffusion Transformer (DiT)을 사용한 플로우 매칭에 기반을 둔 완전 비자기회귀 텍스트 음성 변환 시스템인 F5-TTS를 소개합니다. 기간 모델, 텍스트 인코더, 및 음운 정렬과 같은 복잡한 설계가 필요하지 않으며, 텍스트 입력은 간단히 채우기 토큰으로 패딩되어 입력 음성과 동일한 길이로 만들어진 후, 소음 제거가 음성 생성을 위해 수행됩니다. 이는 원래 E2 TTS에 의해 실행 가능하다는 것이 입증되었습니다. 그러나, E2 TTS의 원래 설계는 수렴 속도가 느리고 견고성이 낮아 따라가기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 먼저 ConvNeXt로 입력을 모델링하여 텍스트 표현을 정제하고, 음성과 쉽게 정렬할 수 있도록 합니다. 또한 추론 시간에 Sway Sampling 전략을 제안하여 모델의 성능과 효율성을 크게 향상시킵니다. 이 플로우 단계에 대한 샘플링 전략은 재교육 없이 기존의 플로우 매칭 기반 모델에 쉽게 적용할 수 있습니다. 우리의 설계는 더 빠른 훈련을 가능하게 하며, 최첨단 확산 기반 TTS 모델과 비교하여 크게 향상된 0.15의 추론 RTF를 달성합니다. 공개 100K 시간 다국어 데이터셋에서 훈련된 Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS)는 매우 자연스럽고 표현력이 풍부한 제로샷 능력, 원활한 코드 전환 능력, 그리고 속도 제어 효율성을 보여줍니다. 데모 샘플은 https://SWivid.github.io/F5-TTS에서 확인할 수 있습니다. 우리는 모든 코드와 체크포인트를 공개하여 커뮤니티 개발을 촉진합니다.
English
This paper introduces F5-TTS, a fully non-autoregressive text-to-speech
system based on flow matching with Diffusion Transformer (DiT). Without
requiring complex designs such as duration model, text encoder, and phoneme
alignment, the text input is simply padded with filler tokens to the same
length as input speech, and then the denoising is performed for speech
generation, which was originally proved feasible by E2 TTS. However, the
original design of E2 TTS makes it hard to follow due to its slow convergence
and low robustness. To address these issues, we first model the input with
ConvNeXt to refine the text representation, making it easy to align with the
speech. We further propose an inference-time Sway Sampling strategy, which
significantly improves our model's performance and efficiency. This sampling
strategy for flow step can be easily applied to existing flow matching based
models without retraining. Our design allows faster training and achieves an
inference RTF of 0.15, which is greatly improved compared to state-of-the-art
diffusion-based TTS models. Trained on a public 100K hours multilingual
dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching
(F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless
code-switching capability, and speed control efficiency. Demo samples can be
found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints
to promote community development.Summary
AI-Generated Summary