Autoregressieve spraaksynthese zonder vectorquantisatie
Autoregressive Speech Synthesis without Vector Quantization
July 11, 2024
Auteurs: Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei
cs.AI
Samenvatting
We presenteren MELLE, een nieuwe aanpak voor taalmodellering op basis van continue waarden voor tekst-naar-spraaksynthese (TTS). MELLE genereert autoregressief continue mel-spectrogramframes rechtstreeks vanuit een tekstconditie, waardoor de noodzaak voor vectorkwantisatie wordt omzeild, een techniek die oorspronkelijk is ontworpen voor audiocompressie en die in vergelijking met mel-spectrogrammen aan kwaliteit inboet. Specifiek: (i) in plaats van kruisentropieverlies passen we regressieverlies toe met een voorgestelde spectrogramflux-verliesfunctie om de kansverdeling van de continue waarden te modelleren. (ii) we hebben variatie-inferentie geïntegreerd in MELLE om bemonsteringsmechanismen te vergemakkelijken, waardoor de uitvoerdiversiteit en modelrobuustheid worden verbeterd. Experimenten tonen aan dat, in vergelijking met de tweefasen-codec-taalmodellen VALL-E en zijn varianten, de eenfasige MELLE robuustheidsproblemen vermindert door de inherente tekortkomingen van het bemonsteren van discrete codes te vermijden, superieure prestaties behaalt op meerdere metrieken en, het belangrijkst, een meer gestroomlijnd paradigma biedt. Zie https://aka.ms/melle voor demo's van ons werk.
English
We present MELLE, a novel continuous-valued tokens based language modeling
approach for text to speech synthesis (TTS). MELLE autoregressively generates
continuous mel-spectrogram frames directly from text condition, bypassing the
need for vector quantization, which are originally designed for audio
compression and sacrifice fidelity compared to mel-spectrograms. Specifically,
(i) instead of cross-entropy loss, we apply regression loss with a proposed
spectrogram flux loss function to model the probability distribution of the
continuous-valued tokens. (ii) we have incorporated variational inference into
MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity
and model robustness. Experiments demonstrate that, compared to the two-stage
codec language models VALL-E and its variants, the single-stage MELLE mitigates
robustness issues by avoiding the inherent flaws of sampling discrete codes,
achieves superior performance across multiple metrics, and, most importantly,
offers a more streamlined paradigm. See https://aka.ms/melle for demos of our
work.