F5-TTS: Программа, создающая искусственную речь с использованием метода потокового сопоставления для достижения естественности и точности.

Аннотация

Эта статья представляет F5-TTS, полностью нерекурсивную систему синтеза речи из текста, основанную на сопоставлении потоков с трансформером Диффузии (DiT). Без необходимости сложных конструкций, таких как модель длительности, кодировщик текста и выравнивание фонем, входной текст просто дополняется заполнителями до той же длины, что и входная речь, после чего выполняется шумоподавление для генерации речи, что изначально было доказано возможным в E2 TTS. Однако исходное проектирование E2 TTS затрудняет его применение из-за медленной сходимости и низкой устойчивости. Для решения этих проблем мы сначала моделируем вход с помощью ConvNeXt для улучшения представления текста, что облегчает его выравнивание с речью. Мы также предлагаем стратегию выборки Sway Sampling на этапе вывода, что значительно улучшает производительность и эффективность нашей модели. Эта стратегия выборки для шага потока может быть легко применена к существующим моделям на основе сопоставления потоков без повторного обучения. Наш дизайн позволяет более быстрое обучение и достигает RTF вывода 0,15, что значительно улучшено по сравнению с передовыми моделями TTS на основе диффузии. Обученная на общедоступном многоязычном наборе данных объемом 100 тыс. часов, наша система F5-TTS Fairytaler Fakes Fluent and Faithful speech with Flow matching проявляет высокую естественность и выразительность при нулевой настройке, способность к плавному переключению кода и эффективное управление скоростью. Демонстрационные образцы можно найти по адресу https://SWivid.github.io/F5-TTS. Мы предоставляем весь код и контрольные точки для поощрения развития сообщества.

English

This paper introduces F5-TTS, a fully non-autoregressive text-to-speech system based on flow matching with Diffusion Transformer (DiT). Without requiring complex designs such as duration model, text encoder, and phoneme alignment, the text input is simply padded with filler tokens to the same length as input speech, and then the denoising is performed for speech generation, which was originally proved feasible by E2 TTS. However, the original design of E2 TTS makes it hard to follow due to its slow convergence and low robustness. To address these issues, we first model the input with ConvNeXt to refine the text representation, making it easy to align with the speech. We further propose an inference-time Sway Sampling strategy, which significantly improves our model's performance and efficiency. This sampling strategy for flow step can be easily applied to existing flow matching based models without retraining. Our design allows faster training and achieves an inference RTF of 0.15, which is greatly improved compared to state-of-the-art diffusion-based TTS models. Trained on a public 100K hours multilingual dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless code-switching capability, and speed control efficiency. Demo samples can be found at https://SWivid.github.io/F5-TTS. We release all code and checkpoints to promote community development.

F5-TTS: Программа, создающая искусственную речь с использованием метода потокового сопоставления для достижения естественности и точности.

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

Аннотация

Support