Autoregressive Sprachsynthese ohne Vektorquantisierung
Autoregressive Speech Synthesis without Vector Quantization
July 11, 2024
Autoren: Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei
cs.AI
Zusammenfassung
Wir präsentieren MELLE, einen neuartigen Ansatz für sprachsynthetische Text-zu-Sprache-Modelle (TTS) basierend auf kontinuierlichen Token. MELLE generiert autoregressiv kontinuierliche Mel-Spektrogramm-Frames direkt aus dem Textzustand, umgeht dabei die Notwendigkeit der Vektorquantisierung, die ursprünglich für die Audiokompression konzipiert wurde und im Vergleich zu Mel-Spektrogrammen die Treue beeinträchtigt. Insbesondere (i) verwenden wir anstelle des Kreuzentropieverlusts einen Regressionsverlust mit einer vorgeschlagenen Spektrogramm-Flussverlustfunktion, um die Wahrscheinlichkeitsverteilung der kontinuierlichen Token zu modellieren. (ii) Wir haben die Variationsschätzung in MELLE integriert, um Abtastmechanismen zu erleichtern, wodurch die Ausgabenvielfalt und die Modellrobustheit verbessert werden. Experimente zeigen, dass MELLE im Vergleich zu den zweistufigen Codec-Sprachmodellen VALL-E und seinen Varianten Robustheitsprobleme mildert, indem es die inhärenten Mängel des Abtastens diskreter Codes vermeidet, überlegene Leistung in mehreren Metriken erzielt und vor allem ein schlankeres Paradigma bietet. Besuchen Sie https://aka.ms/melle für Demos unserer Arbeit.
English
We present MELLE, a novel continuous-valued tokens based language modeling
approach for text to speech synthesis (TTS). MELLE autoregressively generates
continuous mel-spectrogram frames directly from text condition, bypassing the
need for vector quantization, which are originally designed for audio
compression and sacrifice fidelity compared to mel-spectrograms. Specifically,
(i) instead of cross-entropy loss, we apply regression loss with a proposed
spectrogram flux loss function to model the probability distribution of the
continuous-valued tokens. (ii) we have incorporated variational inference into
MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity
and model robustness. Experiments demonstrate that, compared to the two-stage
codec language models VALL-E and its variants, the single-stage MELLE mitigates
robustness issues by avoiding the inherent flaws of sampling discrete codes,
achieves superior performance across multiple metrics, and, most importantly,
offers a more streamlined paradigm. See https://aka.ms/melle for demos of our
work.Summary
AI-Generated Summary