RALL-E: Modelado Robusto de Lenguaje con Codec mediante Prompting de Cadena de Pensamiento para la Síntesis de Texto a Voz
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
April 4, 2024
Autores: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao
cs.AI
Resumen
Presentamos RALL-E, un método robusto de modelado del lenguaje para la síntesis de texto a voz (TTS). Si bien trabajos previos basados en modelos de lenguaje grandes (LLMs) muestran un rendimiento impresionante en TTS de cero disparos (zero-shot), dichos métodos suelen sufrir de una baja robustez, como una prosodia inestable (tono y ritmo/duración extraños) y una alta tasa de error de palabras (WER), debido al estilo de predicción autoregresivo de los modelos de lenguaje. La idea central detrás de RALL-E es el prompting de cadena de pensamiento (CoT), que descompone la tarea en pasos más simples para mejorar la robustez del TTS basado en LLMs. Para lograr esto, RALL-E primero predice las características de prosodia (tono y duración) del texto de entrada y las utiliza como condiciones intermedias para predecir los tokens de voz en un estilo CoT. En segundo lugar, RALL-E utiliza el prompt de duración predicho para guiar el cálculo de los pesos de autoatención en el Transformer, obligando al modelo a centrarse en los fonemas y características de prosodia correspondientes al predecir los tokens de voz. Los resultados de evaluaciones objetivas y subjetivas exhaustivas demuestran que, en comparación con un método de referencia potente, VALL-E, RALL-E mejora significativamente el WER del TTS de cero disparos, reduciéndolo de 6.3% (sin reranking) y 2.1% (con reranking) a 2.8% y 1.0%, respectivamente. Además, demostramos que RALL-E sintetiza correctamente oraciones que son difíciles para VALL-E y reduce la tasa de error del 68% al 4%.
English
We present RALL-E, a robust language modeling method for text-to-speech (TTS)
synthesis. While previous work based on large language models (LLMs) shows
impressive performance on zero-shot TTS, such methods often suffer from poor
robustness, such as unstable prosody (weird pitch and rhythm/duration) and a
high word error rate (WER), due to the autoregressive prediction style of
language models. The core idea behind RALL-E is chain-of-thought (CoT)
prompting, which decomposes the task into simpler steps to enhance the
robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts
prosody features (pitch and duration) of the input text and uses them as
intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E
utilizes the predicted duration prompt to guide the computing of self-attention
weights in Transformer to enforce the model to focus on the corresponding
phonemes and prosody features when predicting speech tokens. Results of
comprehensive objective and subjective evaluations demonstrate that, compared
to a powerful baseline method VALL-E, RALL-E significantly improves the WER of
zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to
2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E
correctly synthesizes sentences that are hard for VALL-E and reduces the error
rate from 68% to 4%.Summary
AI-Generated Summary