Matcha-TTS: Uma arquitetura rápida de TTS com correspondência de fluxo condicional
Matcha-TTS: A fast TTS architecture with conditional flow matching
September 6, 2023
Autores: Shivam Mehta, Ruibo Tu, Jonas Beskow, Éva Székely, Gustav Eje Henter
cs.AI
Resumo
Apresentamos o Matcha-TTS, uma nova arquitetura codificador-decodificador para modelagem acústica de TTS rápida, treinada utilizando correspondência de fluxo condicional com transporte ótimo (OT-CFM). Isso resulta em um decodificador baseado em EDO capaz de gerar saídas de alta qualidade em menos etapas de síntese do que modelos treinados com correspondência de pontuação. Escolhas de design cuidadosas garantem ainda que cada etapa de síntese seja executada rapidamente. O método é probabilístico, não autorregressivo e aprende a falar do zero sem alinhamentos externos. Comparado a modelos de linha de base pré-treinados robustos, o sistema Matcha-TTS possui a menor pegada de memória, rivaliza com a velocidade dos modelos mais rápidos em enunciados longos e atinge a maior pontuação média de opinião em um teste de audição. Consulte https://shivammehta25.github.io/Matcha-TTS/ para exemplos de áudio, código e modelos pré-treinados.
English
We introduce Matcha-TTS, a new encoder-decoder architecture for speedy TTS
acoustic modelling, trained using optimal-transport conditional flow matching
(OT-CFM). This yields an ODE-based decoder capable of high output quality in
fewer synthesis steps than models trained using score matching. Careful design
choices additionally ensure each synthesis step is fast to run. The method is
probabilistic, non-autoregressive, and learns to speak from scratch without
external alignments. Compared to strong pre-trained baseline models, the
Matcha-TTS system has the smallest memory footprint, rivals the speed of the
fastest models on long utterances, and attains the highest mean opinion score
in a listening test. Please see https://shivammehta25.github.io/Matcha-TTS/ for
audio examples, code, and pre-trained models.