RALL-E: Modelagem de Linguagem de Codec Robusta com Prompting de Cadeia de Pensamento para Síntese de Texto em Fala
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
April 4, 2024
Autores: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao
cs.AI
Resumo
Apresentamos o RALL-E, um método robusto de modelagem de linguagem para síntese de texto-para-fala (TTS). Embora trabalhos anteriores baseados em grandes modelos de linguagem (LLMs) demonstrem desempenho impressionante em TTS zero-shot, tais métodos frequentemente sofrem com baixa robustez, como prosódia instável (tom e ritmo/duração estranhos) e alta taxa de erro de palavras (WER), devido ao estilo de previsão autoregressivo dos modelos de linguagem. A ideia central por trás do RALL-E é o prompting de cadeia de pensamento (CoT), que decompõe a tarefa em etapas mais simples para aumentar a robustez do TTS baseado em LLM. Para realizar essa ideia, o RALL-E primeiro prevê características de prosódia (tom e duração) do texto de entrada e as utiliza como condições intermediárias para prever tokens de fala em um estilo CoT. Em segundo lugar, o RALL-E utiliza o prompt de duração previsto para guiar o cálculo dos pesos de autoatenção no Transformer, forçando o modelo a focar nos fonemas e características de prosódia correspondentes ao prever os tokens de fala. Os resultados de avaliações objetivas e subjetivas abrangentes demonstram que, em comparação com um método de linha de base poderoso, o VALL-E, o RALL-E melhora significativamente o WER do TTS zero-shot de 6,3% (sem reclassificação) e 2,1% (com reclassificação) para 2,8% e 1,0%, respectivamente. Além disso, demonstramos que o RALL-E sintetiza corretamente frases que são difíceis para o VALL-E e reduz a taxa de erro de 68% para 4%.
English
We present RALL-E, a robust language modeling method for text-to-speech (TTS)
synthesis. While previous work based on large language models (LLMs) shows
impressive performance on zero-shot TTS, such methods often suffer from poor
robustness, such as unstable prosody (weird pitch and rhythm/duration) and a
high word error rate (WER), due to the autoregressive prediction style of
language models. The core idea behind RALL-E is chain-of-thought (CoT)
prompting, which decomposes the task into simpler steps to enhance the
robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts
prosody features (pitch and duration) of the input text and uses them as
intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E
utilizes the predicted duration prompt to guide the computing of self-attention
weights in Transformer to enforce the model to focus on the corresponding
phonemes and prosody features when predicting speech tokens. Results of
comprehensive objective and subjective evaluations demonstrate that, compared
to a powerful baseline method VALL-E, RALL-E significantly improves the WER of
zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to
2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E
correctly synthesizes sentences that are hard for VALL-E and reduces the error
rate from 68% to 4%.