F5-TTS: Программа, создающая искусственную речь с использованием метода потокового сопоставления для достижения естественности и точности.
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
October 9, 2024
Авторы: Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
cs.AI
Аннотация
Эта статья представляет F5-TTS, полностью нерекурсивную систему синтеза речи из текста, основанную на сопоставлении потоков с трансформером Диффузии (DiT). Без необходимости сложных конструкций, таких как модель длительности, кодировщик текста и выравнивание фонем, входной текст просто дополняется заполнителями до той же длины, что и входная речь, после чего выполняется шумоподавление для генерации речи, что изначально было доказано возможным в E2 TTS. Однако исходное проектирование E2 TTS затрудняет его применение из-за медленной сходимости и низкой устойчивости. Для решения этих проблем мы сначала моделируем вход с помощью ConvNeXt для улучшения представления текста, что облегчает его выравнивание с речью. Мы также предлагаем стратегию выборки Sway Sampling на этапе вывода, что значительно улучшает производительность и эффективность нашей модели. Эта стратегия выборки для шага потока может быть легко применена к существующим моделям на основе сопоставления потоков без повторного обучения. Наш дизайн позволяет более быстрое обучение и достигает RTF вывода 0,15, что значительно улучшено по сравнению с передовыми моделями TTS на основе диффузии. Обученная на общедоступном многоязычном наборе данных объемом 100 тыс. часов, наша система F5-TTS Fairytaler Fakes Fluent and Faithful speech with Flow matching проявляет высокую естественность и выразительность при нулевой настройке, способность к плавному переключению кода и эффективное управление скоростью. Демонстрационные образцы можно найти по адресу https://SWivid.github.io/F5-TTS. Мы предоставляем весь код и контрольные точки для поощрения развития сообщества.
English
This paper introduces F5-TTS, a fully non-autoregressive text-to-speech
system based on flow matching with Diffusion Transformer (DiT). Without
requiring complex designs such as duration model, text encoder, and phoneme
alignment, the text input is simply padded with filler tokens to the same
length as input speech, and then the denoising is performed for speech
generation, which was originally proved feasible by E2 TTS. However, the
original design of E2 TTS makes it hard to follow due to its slow convergence
and low robustness. To address these issues, we first model the input with
ConvNeXt to refine the text representation, making it easy to align with the
speech. We further propose an inference-time Sway Sampling strategy, which
significantly improves our model's performance and efficiency. This sampling
strategy for flow step can be easily applied to existing flow matching based
models without retraining. Our design allows faster training and achieves an
inference RTF of 0.15, which is greatly improved compared to state-of-the-art
diffusion-based TTS models. Trained on a public 100K hours multilingual
dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching
(F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless
code-switching capability, and speed control efficiency. Demo samples can be
found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints
to promote community development.Summary
AI-Generated Summary