I Ponti di Schrodinger superano i modelli di diffusione nella sintesi vocale da testo

Abstract

Nella sintesi testo-voce (TTS), i modelli di diffusione hanno raggiunto una qualità di generazione promettente. Tuttavia, a causa del processo di diffusione da dati a rumore predefinito, la loro distribuzione a priori è limitata a una rappresentazione rumorosa, che fornisce poche informazioni sul target di generazione. In questo lavoro, presentiamo un nuovo sistema TTS, Bridge-TTS, che rappresenta il primo tentativo di sostituire la distribuzione a priori gaussiana rumorosa nei metodi TTS basati su diffusione con una distribuzione pulita e deterministica, che fornisce una forte informazione strutturale del target. Nello specifico, sfruttiamo la rappresentazione latente ottenuta dall'input testuale come nostra distribuzione a priori e costruiamo un ponte di Schrodinger completamente trattabile tra questa e il mel-spettrogramma di riferimento, portando a un processo da dati a dati. Inoltre, la trattabilità e la flessibilità della nostra formulazione ci permettono di studiare empiricamente gli spazi di progettazione come le schedulazioni del rumore, nonché di sviluppare campionatori stocastici e deterministici. I risultati sperimentali sul dataset LJ-Speech dimostrano l'efficacia del nostro metodo in termini sia di qualità di sintesi che di efficienza di campionamento, superando significativamente la nostra controparte basata su diffusione Grad-TTS nella sintesi a 50 passi/1000 passi e modelli TTS veloci e robusti in scenari con pochi passi. Pagina del progetto: https://bridge-tts.github.io/

English

In text-to-speech (TTS) synthesis, diffusion models have achieved promising generation quality. However, because of the pre-defined data-to-noise diffusion process, their prior distribution is restricted to a noisy representation, which provides little information of the generation target. In this work, we present a novel TTS system, Bridge-TTS, making the first attempt to substitute the noisy Gaussian prior in established diffusion-based TTS methods with a clean and deterministic one, which provides strong structural information of the target. Specifically, we leverage the latent representation obtained from text input as our prior, and build a fully tractable Schrodinger bridge between it and the ground-truth mel-spectrogram, leading to a data-to-data process. Moreover, the tractability and flexibility of our formulation allow us to empirically study the design spaces such as noise schedules, as well as to develop stochastic and deterministic samplers. Experimental results on the LJ-Speech dataset illustrate the effectiveness of our method in terms of both synthesis quality and sampling efficiency, significantly outperforming our diffusion counterpart Grad-TTS in 50-step/1000-step synthesis and strong fast TTS models in few-step scenarios. Project page: https://bridge-tts.github.io/

I Ponti di Schrodinger superano i modelli di diffusione nella sintesi vocale da testo

Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis

Abstract

Support