ChatPaper.aiChatPaper

Schrodinger Bridges overtreffen diffusiemodellen bij tekst-naar-spraaksynthese

Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis

December 6, 2023
Auteurs: Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu
cs.AI

Samenvatting

In tekst-naar-spraak (TTS) synthese hebben diffusiemodellen veelbelovende generatiekwaliteit bereikt. Vanwege het vooraf gedefinieerde data-naar-ruis diffusieproces is hun priorverdeling echter beperkt tot een ruisachtige representatie, die weinig informatie biedt over het generatiedoel. In dit werk presenteren we een nieuw TTS-systeem, Bridge-TTS, dat als eerste poging doet om het ruisachtige Gaussiaanse prior in gevestigde diffusiegebaseerde TTS-methoden te vervangen door een schone en deterministische prior, die sterke structurele informatie van het doel biedt. Specifiek maken we gebruik van de latente representatie verkregen uit tekstinvoer als onze prior, en bouwen we een volledig traceerbare Schrödinger-brug tussen deze en de grondwaarheid mel-spectrogram, wat resulteert in een data-naar-data proces. Bovendien stellen de traceerbaarheid en flexibiliteit van onze formulering ons in staat om empirisch ontwerpruimtes zoals ruisschema's te bestuderen, evenals stochastische en deterministische samplers te ontwikkelen. Experimentele resultaten op de LJ-Speech dataset illustreren de effectiviteit van onze methode in termen van zowel synthesekwaliteit als samplingefficiëntie, waarbij onze diffusie-tegenhanger Grad-TTS significant wordt overtroffen in 50-staps/1000-staps synthese en sterke snelle TTS-modellen in weinig-staps scenario's. Projectpagina: https://bridge-tts.github.io/
English
In text-to-speech (TTS) synthesis, diffusion models have achieved promising generation quality. However, because of the pre-defined data-to-noise diffusion process, their prior distribution is restricted to a noisy representation, which provides little information of the generation target. In this work, we present a novel TTS system, Bridge-TTS, making the first attempt to substitute the noisy Gaussian prior in established diffusion-based TTS methods with a clean and deterministic one, which provides strong structural information of the target. Specifically, we leverage the latent representation obtained from text input as our prior, and build a fully tractable Schrodinger bridge between it and the ground-truth mel-spectrogram, leading to a data-to-data process. Moreover, the tractability and flexibility of our formulation allow us to empirically study the design spaces such as noise schedules, as well as to develop stochastic and deterministic samplers. Experimental results on the LJ-Speech dataset illustrate the effectiveness of our method in terms of both synthesis quality and sampling efficiency, significantly outperforming our diffusion counterpart Grad-TTS in 50-step/1000-step synthesis and strong fast TTS models in few-step scenarios. Project page: https://bridge-tts.github.io/
PDF350December 15, 2024