Les Ponts de Schrödinger surpassent les modèles de diffusion dans la synthèse de parole à partir de texte.
Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis
December 6, 2023
Auteurs: Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu
cs.AI
Résumé
Dans la synthèse de parole à partir de texte (TTS), les modèles de diffusion ont atteint une qualité de génération prometteuse. Cependant, en raison du processus prédéfini de diffusion des données vers le bruit, leur distribution a priori est limitée à une représentation bruitée, qui fournit peu d'informations sur la cible de génération. Dans ce travail, nous présentons un nouveau système TTS, Bridge-TTS, qui constitue la première tentative de remplacer le bruit gaussien a priori dans les méthodes TTS basées sur la diffusion par une représentation propre et déterministe, offrant ainsi des informations structurelles solides sur la cible. Plus précisément, nous exploitons la représentation latente obtenue à partir de l'entrée textuelle comme a priori, et construisons un pont de Schrödinger entièrement traçable entre celle-ci et le mel-spectrogramme de référence, conduisant à un processus de données à données. De plus, la traçabilité et la flexibilité de notre formulation nous permettent d'étudier empiriquement les espaces de conception tels que les plannings de bruit, ainsi que de développer des échantillonneurs stochastiques et déterministes. Les résultats expérimentaux sur le jeu de données LJ-Speech illustrent l'efficacité de notre méthode en termes de qualité de synthèse et d'efficacité d'échantillonnage, surpassant significativement notre contrepartie basée sur la diffusion, Grad-TTS, dans des synthèses en 50 étapes/1000 étapes, ainsi que des modèles TTS rapides performants dans des scénarios à faible nombre d'étapes. Page du projet : https://bridge-tts.github.io/
English
In text-to-speech (TTS) synthesis, diffusion models have achieved promising
generation quality. However, because of the pre-defined data-to-noise diffusion
process, their prior distribution is restricted to a noisy representation,
which provides little information of the generation target. In this work, we
present a novel TTS system, Bridge-TTS, making the first attempt to substitute
the noisy Gaussian prior in established diffusion-based TTS methods with a
clean and deterministic one, which provides strong structural information of
the target. Specifically, we leverage the latent representation obtained from
text input as our prior, and build a fully tractable Schrodinger bridge between
it and the ground-truth mel-spectrogram, leading to a data-to-data process.
Moreover, the tractability and flexibility of our formulation allow us to
empirically study the design spaces such as noise schedules, as well as to
develop stochastic and deterministic samplers. Experimental results on the
LJ-Speech dataset illustrate the effectiveness of our method in terms of both
synthesis quality and sampling efficiency, significantly outperforming our
diffusion counterpart Grad-TTS in 50-step/1000-step synthesis and strong fast
TTS models in few-step scenarios. Project page: https://bridge-tts.github.io/