ChatPaper.aiChatPaper

Síntese de Fala Autoregressiva sem Quantização de Vetores

Autoregressive Speech Synthesis without Vector Quantization

July 11, 2024
Autores: Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei
cs.AI

Resumo

Apresentamos o MELLE, uma abordagem inovadora de modelagem de linguagem baseada em tokens de valores contínuos para síntese de fala a partir de texto (TTS). O MELLE gera autoregressivamente quadros contínuos de espectrogramas mel diretamente a partir da condição de texto, evitando a necessidade de quantização vetorial, originalmente projetada para compressão de áudio e que sacrifica a fidelidade em comparação com espectrogramas mel. Especificamente, (i) em vez de perda de entropia cruzada, aplicamos perda de regressão com uma função de perda de fluxo de espectrograma proposta para modelar a distribuição de probabilidade dos tokens de valores contínuos. (ii) incorporamos inferência variacional ao MELLE para facilitar mecanismos de amostragem, melhorando assim a diversidade de saída e a robustez do modelo. Experimentos demonstram que, em comparação com os modelos de linguagem de codec de duas etapas VALL-E e suas variantes, o MELLE de estágio único mitiga problemas de robustez ao evitar as falhas inerentes da amostragem de códigos discretos, alcança desempenho superior em várias métricas e, mais importante, oferece um paradigma mais simplificado. Consulte https://aka.ms/melle para demonstrações do nosso trabalho.
English
We present MELLE, a novel continuous-valued tokens based language modeling approach for text to speech synthesis (TTS). MELLE autoregressively generates continuous mel-spectrogram frames directly from text condition, bypassing the need for vector quantization, which are originally designed for audio compression and sacrifice fidelity compared to mel-spectrograms. Specifically, (i) instead of cross-entropy loss, we apply regression loss with a proposed spectrogram flux loss function to model the probability distribution of the continuous-valued tokens. (ii) we have incorporated variational inference into MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity and model robustness. Experiments demonstrate that, compared to the two-stage codec language models VALL-E and its variants, the single-stage MELLE mitigates robustness issues by avoiding the inherent flaws of sampling discrete codes, achieves superior performance across multiple metrics, and, most importantly, offers a more streamlined paradigm. See https://aka.ms/melle for demos of our work.
PDF174November 28, 2024