ChatPaper.aiChatPaper

Schrödinger-Brücken übertreffen Diffusionsmodelle bei der Text-zu-Sprache-Synthese.

Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis

December 6, 2023
Autoren: Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu
cs.AI

Zusammenfassung

In der Text-zu-Sprache-Synthese (TTS) haben Diffusionsmodelle vielversprechende Generierungsqualitäten erreicht. Aufgrund des vordefinierten Daten-zu-Rauschen-Diffusionsprozesses ist ihre Prior-Verteilung jedoch auf eine verrauschte Darstellung beschränkt, die nur wenig Information über das Generierungsziel liefert. In dieser Arbeit präsentieren wir ein neuartiges TTS-System, Bridge-TTS, das den ersten Versuch unternimmt, das verrauschte Gaußsche Prior in etablierten diffusionsbasierten TTS-Methoden durch ein sauberes und deterministisches zu ersetzen, das starke strukturelle Informationen des Ziels liefert. Konkret nutzen wir die latente Darstellung, die aus der Texteingabe gewonnen wird, als unser Prior und bauen eine vollständig nachvollziehbare Schrödinger-Brücke zwischen dieser und dem Ground-Truth-Mel-Spektrum, was zu einem Daten-zu-Daten-Prozess führt. Darüber hinaus ermöglichen die Nachvollziehbarkeit und Flexibilität unserer Formulierung eine empirische Untersuchung von Designräumen wie Rauschplänen sowie die Entwicklung von stochastischen und deterministischen Samplern. Experimentelle Ergebnisse auf dem LJ-Speech-Datensatz zeigen die Effektivität unserer Methode in Bezug auf sowohl Synthesequalität als auch Sampling-Effizienz, wobei sie unseren Diffusionsgegenpart Grad-TTS bei der 50-Schritt-/1000-Schritt-Synthese und starke schnelle TTS-Modelle in wenigen Schritten deutlich übertreffen. Projektseite: https://bridge-tts.github.io/
English
In text-to-speech (TTS) synthesis, diffusion models have achieved promising generation quality. However, because of the pre-defined data-to-noise diffusion process, their prior distribution is restricted to a noisy representation, which provides little information of the generation target. In this work, we present a novel TTS system, Bridge-TTS, making the first attempt to substitute the noisy Gaussian prior in established diffusion-based TTS methods with a clean and deterministic one, which provides strong structural information of the target. Specifically, we leverage the latent representation obtained from text input as our prior, and build a fully tractable Schrodinger bridge between it and the ground-truth mel-spectrogram, leading to a data-to-data process. Moreover, the tractability and flexibility of our formulation allow us to empirically study the design spaces such as noise schedules, as well as to develop stochastic and deterministic samplers. Experimental results on the LJ-Speech dataset illustrate the effectiveness of our method in terms of both synthesis quality and sampling efficiency, significantly outperforming our diffusion counterpart Grad-TTS in 50-step/1000-step synthesis and strong fast TTS models in few-step scenarios. Project page: https://bridge-tts.github.io/
PDF350December 15, 2024