Autoregressieve spraaksynthese zonder vectorquantisatie

Samenvatting

We presenteren MELLE, een nieuwe aanpak voor taalmodellering op basis van continue waarden voor tekst-naar-spraaksynthese (TTS). MELLE genereert autoregressief continue mel-spectrogramframes rechtstreeks vanuit een tekstconditie, waardoor de noodzaak voor vectorkwantisatie wordt omzeild, een techniek die oorspronkelijk is ontworpen voor audiocompressie en die in vergelijking met mel-spectrogrammen aan kwaliteit inboet. Specifiek: (i) in plaats van kruisentropieverlies passen we regressieverlies toe met een voorgestelde spectrogramflux-verliesfunctie om de kansverdeling van de continue waarden te modelleren. (ii) we hebben variatie-inferentie geïntegreerd in MELLE om bemonsteringsmechanismen te vergemakkelijken, waardoor de uitvoerdiversiteit en modelrobuustheid worden verbeterd. Experimenten tonen aan dat, in vergelijking met de tweefasen-codec-taalmodellen VALL-E en zijn varianten, de eenfasige MELLE robuustheidsproblemen vermindert door de inherente tekortkomingen van het bemonsteren van discrete codes te vermijden, superieure prestaties behaalt op meerdere metrieken en, het belangrijkst, een meer gestroomlijnd paradigma biedt. Zie https://aka.ms/melle voor demo's van ons werk.

English

We present MELLE, a novel continuous-valued tokens based language modeling approach for text to speech synthesis (TTS). MELLE autoregressively generates continuous mel-spectrogram frames directly from text condition, bypassing the need for vector quantization, which are originally designed for audio compression and sacrifice fidelity compared to mel-spectrograms. Specifically, (i) instead of cross-entropy loss, we apply regression loss with a proposed spectrogram flux loss function to model the probability distribution of the continuous-valued tokens. (ii) we have incorporated variational inference into MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity and model robustness. Experiments demonstrate that, compared to the two-stage codec language models VALL-E and its variants, the single-stage MELLE mitigates robustness issues by avoiding the inherent flaws of sampling discrete codes, achieves superior performance across multiple metrics, and, most importantly, offers a more streamlined paradigm. See https://aka.ms/melle for demos of our work.

Autoregressieve spraaksynthese zonder vectorquantisatie

Autoregressive Speech Synthesis without Vector Quantization

Samenvatting

Support