Ponte de Schrodinger Supera Modelos de Difusão na Síntese de Texto para Fala
Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis
December 6, 2023
Autores: Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu
cs.AI
Resumo
Na síntese de texto para fala (TTS, do inglês Text-to-Speech), os modelos de difusão têm alcançado uma qualidade de geração promissora. No entanto, devido ao processo de difusão pré-definido de dados para ruído, sua distribuição anterior é restrita a uma representação ruidosa, que fornece pouca informação sobre o alvo de geração. Neste trabalho, apresentamos um novo sistema TTS, o Bridge-TTS, que faz a primeira tentativa de substituir o anterior Gaussiano ruidoso em métodos TTS baseados em difusão por um anterior limpo e determinístico, que fornece forte informação estrutural do alvo. Especificamente, aproveitamos a representação latente obtida a partir da entrada de texto como nosso anterior e construímos uma ponte de Schrödinger totalmente tratável entre ela e o mel-espectrograma de referência, resultando em um processo de dados para dados. Além disso, a tratabilidade e flexibilidade de nossa formulação nos permitem estudar empiricamente espaços de design, como cronogramas de ruído, bem como desenvolver amostradores estocásticos e determinísticos. Os resultados experimentais no conjunto de dados LJ-Speech ilustram a eficácia de nosso método em termos de qualidade de síntese e eficiência de amostragem, superando significativamente nossa contraparte de difusão, o Grad-TTS, na síntese de 50 passos/1000 passos, e modelos TTS rápidos e robustos em cenários de poucos passos. Página do projeto: https://bridge-tts.github.io/
English
In text-to-speech (TTS) synthesis, diffusion models have achieved promising
generation quality. However, because of the pre-defined data-to-noise diffusion
process, their prior distribution is restricted to a noisy representation,
which provides little information of the generation target. In this work, we
present a novel TTS system, Bridge-TTS, making the first attempt to substitute
the noisy Gaussian prior in established diffusion-based TTS methods with a
clean and deterministic one, which provides strong structural information of
the target. Specifically, we leverage the latent representation obtained from
text input as our prior, and build a fully tractable Schrodinger bridge between
it and the ground-truth mel-spectrogram, leading to a data-to-data process.
Moreover, the tractability and flexibility of our formulation allow us to
empirically study the design spaces such as noise schedules, as well as to
develop stochastic and deterministic samplers. Experimental results on the
LJ-Speech dataset illustrate the effectiveness of our method in terms of both
synthesis quality and sampling efficiency, significantly outperforming our
diffusion counterpart Grad-TTS in 50-step/1000-step synthesis and strong fast
TTS models in few-step scenarios. Project page: https://bridge-tts.github.io/