I Ponti di Schrodinger superano i modelli di diffusione nella sintesi vocale da testo
Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis
December 6, 2023
Autori: Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu
cs.AI
Abstract
Nella sintesi testo-voce (TTS), i modelli di diffusione hanno raggiunto una qualità di generazione promettente. Tuttavia, a causa del processo di diffusione da dati a rumore predefinito, la loro distribuzione a priori è limitata a una rappresentazione rumorosa, che fornisce poche informazioni sul target di generazione. In questo lavoro, presentiamo un nuovo sistema TTS, Bridge-TTS, che rappresenta il primo tentativo di sostituire la distribuzione a priori gaussiana rumorosa nei metodi TTS basati su diffusione con una distribuzione pulita e deterministica, che fornisce una forte informazione strutturale del target. Nello specifico, sfruttiamo la rappresentazione latente ottenuta dall'input testuale come nostra distribuzione a priori e costruiamo un ponte di Schrodinger completamente trattabile tra questa e il mel-spettrogramma di riferimento, portando a un processo da dati a dati. Inoltre, la trattabilità e la flessibilità della nostra formulazione ci permettono di studiare empiricamente gli spazi di progettazione come le schedulazioni del rumore, nonché di sviluppare campionatori stocastici e deterministici. I risultati sperimentali sul dataset LJ-Speech dimostrano l'efficacia del nostro metodo in termini sia di qualità di sintesi che di efficienza di campionamento, superando significativamente la nostra controparte basata su diffusione Grad-TTS nella sintesi a 50 passi/1000 passi e modelli TTS veloci e robusti in scenari con pochi passi. Pagina del progetto: https://bridge-tts.github.io/
English
In text-to-speech (TTS) synthesis, diffusion models have achieved promising
generation quality. However, because of the pre-defined data-to-noise diffusion
process, their prior distribution is restricted to a noisy representation,
which provides little information of the generation target. In this work, we
present a novel TTS system, Bridge-TTS, making the first attempt to substitute
the noisy Gaussian prior in established diffusion-based TTS methods with a
clean and deterministic one, which provides strong structural information of
the target. Specifically, we leverage the latent representation obtained from
text input as our prior, and build a fully tractable Schrodinger bridge between
it and the ground-truth mel-spectrogram, leading to a data-to-data process.
Moreover, the tractability and flexibility of our formulation allow us to
empirically study the design spaces such as noise schedules, as well as to
develop stochastic and deterministic samplers. Experimental results on the
LJ-Speech dataset illustrate the effectiveness of our method in terms of both
synthesis quality and sampling efficiency, significantly outperforming our
diffusion counterpart Grad-TTS in 50-step/1000-step synthesis and strong fast
TTS models in few-step scenarios. Project page: https://bridge-tts.github.io/