RALL-E: Modelado Robusto de Lenguaje con Codec mediante Prompting de Cadena de Pensamiento para la Síntesis de Texto a Voz

Resumen

Presentamos RALL-E, un método robusto de modelado del lenguaje para la síntesis de texto a voz (TTS). Si bien trabajos previos basados en modelos de lenguaje grandes (LLMs) muestran un rendimiento impresionante en TTS de cero disparos (zero-shot), dichos métodos suelen sufrir de una baja robustez, como una prosodia inestable (tono y ritmo/duración extraños) y una alta tasa de error de palabras (WER), debido al estilo de predicción autoregresivo de los modelos de lenguaje. La idea central detrás de RALL-E es el prompting de cadena de pensamiento (CoT), que descompone la tarea en pasos más simples para mejorar la robustez del TTS basado en LLMs. Para lograr esto, RALL-E primero predice las características de prosodia (tono y duración) del texto de entrada y las utiliza como condiciones intermedias para predecir los tokens de voz en un estilo CoT. En segundo lugar, RALL-E utiliza el prompt de duración predicho para guiar el cálculo de los pesos de autoatención en el Transformer, obligando al modelo a centrarse en los fonemas y características de prosodia correspondientes al predecir los tokens de voz. Los resultados de evaluaciones objetivas y subjetivas exhaustivas demuestran que, en comparación con un método de referencia potente, VALL-E, RALL-E mejora significativamente el WER del TTS de cero disparos, reduciéndolo de 6.3% (sin reranking) y 2.1% (con reranking) a 2.8% y 1.0%, respectivamente. Además, demostramos que RALL-E sintetiza correctamente oraciones que son difíciles para VALL-E y reduce la tasa de error del 68% al 4%.

English

We present RALL-E, a robust language modeling method for text-to-speech (TTS) synthesis. While previous work based on large language models (LLMs) shows impressive performance on zero-shot TTS, such methods often suffer from poor robustness, such as unstable prosody (weird pitch and rhythm/duration) and a high word error rate (WER), due to the autoregressive prediction style of language models. The core idea behind RALL-E is chain-of-thought (CoT) prompting, which decomposes the task into simpler steps to enhance the robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts prosody features (pitch and duration) of the input text and uses them as intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E utilizes the predicted duration prompt to guide the computing of self-attention weights in Transformer to enforce the model to focus on the corresponding phonemes and prosody features when predicting speech tokens. Results of comprehensive objective and subjective evaluations demonstrate that, compared to a powerful baseline method VALL-E, RALL-E significantly improves the WER of zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to 2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E correctly synthesizes sentences that are hard for VALL-E and reduces the error rate from 68% to 4%.

RALL-E: Modelado Robusto de Lenguaje con Codec mediante Prompting de Cadena de Pensamiento para la Síntesis de Texto a Voz

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Resumen

Support