Синтез речи с авторегрессией без векторного квантования.
Autoregressive Speech Synthesis without Vector Quantization
July 11, 2024
Авторы: Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei
cs.AI
Аннотация
Мы представляем MELLE, новый подход к языковому моделированию на основе непрерывных токенов для синтеза речи из текста (TTS). MELLE авторегрессивно генерирует непрерывные кадры мел-спектрограммы непосредственно из текстового условия, обходя необходимость векторного квантования, которое изначально предназначено для аудио-сжатия и жертвует достоверностью по сравнению с мел-спектрограммами. В частности, (i) вместо потерь кросс-энтропии мы применяем потери регрессии с предложенной функцией потерь потока спектрограммы для моделирования вероятностного распределения непрерывных токенов. (ii) мы внедрили вариационное вывод в MELLE для облегчения механизмов выборки, тем самым улучшая разнообразие выходных данных и устойчивость модели. Эксперименты показывают, что по сравнению с языковыми моделями кодека двухэтапного VALL-E и его вариантами, одноэтапный MELLE уменьшает проблемы устойчивости, избегая врожденных недостатков выборки дискретных кодов, достигает превосходной производительности по нескольким метрикам и, что самое важное, предлагает более упрощенную парадигму. См. https://aka.ms/melle для демонстраций нашей работы.
English
We present MELLE, a novel continuous-valued tokens based language modeling
approach for text to speech synthesis (TTS). MELLE autoregressively generates
continuous mel-spectrogram frames directly from text condition, bypassing the
need for vector quantization, which are originally designed for audio
compression and sacrifice fidelity compared to mel-spectrograms. Specifically,
(i) instead of cross-entropy loss, we apply regression loss with a proposed
spectrogram flux loss function to model the probability distribution of the
continuous-valued tokens. (ii) we have incorporated variational inference into
MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity
and model robustness. Experiments demonstrate that, compared to the two-stage
codec language models VALL-E and its variants, the single-stage MELLE mitigates
robustness issues by avoiding the inherent flaws of sampling discrete codes,
achieves superior performance across multiple metrics, and, most importantly,
offers a more streamlined paradigm. See https://aka.ms/melle for demos of our
work.Summary
AI-Generated Summary