ChatPaper.aiChatPaper

Matcha-TTS: Быстрая архитектура синтеза речи с условным согласованием потоков

Matcha-TTS: A fast TTS architecture with conditional flow matching

September 6, 2023
Авторы: Shivam Mehta, Ruibo Tu, Jonas Beskow, Éva Székely, Gustav Eje Henter
cs.AI

Аннотация

Мы представляем Matcha-TTS — новую архитектуру кодировщика-декодера для быстрого акустического моделирования в синтезе речи, обученную с использованием условного согласования потоков на основе оптимального транспорта (OT-CFM). Это позволяет получить декодер на основе обыкновенных дифференциальных уравнений (ODE), способный генерировать высококачественный выходной сигнал за меньшее количество шагов синтеза по сравнению с моделями, обученными с использованием согласования оценок. Тщательно продуманные архитектурные решения также обеспечивают высокую скорость выполнения каждого шага синтеза. Метод является вероятностным, неавторегрессивным и обучается говорить с нуля без использования внешних выравниваний. По сравнению с сильными предобученными базовыми моделями, система Matcha-TTS имеет наименьший объем занимаемой памяти, соперничает по скорости с самыми быстрыми моделями на длинных высказываниях и достигает наивысшего среднего балла в тестах на восприятие. Примеры аудио, код и предобученные модели доступны по ссылке: https://shivammehta25.github.io/Matcha-TTS/.
English
We introduce Matcha-TTS, a new encoder-decoder architecture for speedy TTS acoustic modelling, trained using optimal-transport conditional flow matching (OT-CFM). This yields an ODE-based decoder capable of high output quality in fewer synthesis steps than models trained using score matching. Careful design choices additionally ensure each synthesis step is fast to run. The method is probabilistic, non-autoregressive, and learns to speak from scratch without external alignments. Compared to strong pre-trained baseline models, the Matcha-TTS system has the smallest memory footprint, rivals the speed of the fastest models on long utterances, and attains the highest mean opinion score in a listening test. Please see https://shivammehta25.github.io/Matcha-TTS/ for audio examples, code, and pre-trained models.
PDF120December 15, 2024