ChatPaper.aiChatPaper

Синтез речи с авторегрессией без векторного квантования.

Autoregressive Speech Synthesis without Vector Quantization

July 11, 2024
Авторы: Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei
cs.AI

Аннотация

Мы представляем MELLE, новый подход к языковому моделированию на основе непрерывных токенов для синтеза речи из текста (TTS). MELLE авторегрессивно генерирует непрерывные кадры мел-спектрограммы непосредственно из текстового условия, обходя необходимость векторного квантования, которое изначально предназначено для аудио-сжатия и жертвует достоверностью по сравнению с мел-спектрограммами. В частности, (i) вместо потерь кросс-энтропии мы применяем потери регрессии с предложенной функцией потерь потока спектрограммы для моделирования вероятностного распределения непрерывных токенов. (ii) мы внедрили вариационное вывод в MELLE для облегчения механизмов выборки, тем самым улучшая разнообразие выходных данных и устойчивость модели. Эксперименты показывают, что по сравнению с языковыми моделями кодека двухэтапного VALL-E и его вариантами, одноэтапный MELLE уменьшает проблемы устойчивости, избегая врожденных недостатков выборки дискретных кодов, достигает превосходной производительности по нескольким метрикам и, что самое важное, предлагает более упрощенную парадигму. См. https://aka.ms/melle для демонстраций нашей работы.
English
We present MELLE, a novel continuous-valued tokens based language modeling approach for text to speech synthesis (TTS). MELLE autoregressively generates continuous mel-spectrogram frames directly from text condition, bypassing the need for vector quantization, which are originally designed for audio compression and sacrifice fidelity compared to mel-spectrograms. Specifically, (i) instead of cross-entropy loss, we apply regression loss with a proposed spectrogram flux loss function to model the probability distribution of the continuous-valued tokens. (ii) we have incorporated variational inference into MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity and model robustness. Experiments demonstrate that, compared to the two-stage codec language models VALL-E and its variants, the single-stage MELLE mitigates robustness issues by avoiding the inherent flaws of sampling discrete codes, achieves superior performance across multiple metrics, and, most importantly, offers a more streamlined paradigm. See https://aka.ms/melle for demos of our work.

Summary

AI-Generated Summary

PDF174November 28, 2024