ChatPaper.aiChatPaper

RALL-E: Modellamento Linguistico Robusto del Codec con Prompting a Catena di Pensiero per la Sintesi da Testo a Voce

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

April 4, 2024
Autori: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao
cs.AI

Abstract

Presentiamo RALL-E, un metodo robusto di modellazione del linguaggio per la sintesi testo-voce (TTS). Sebbene i lavori precedenti basati su modelli linguistici di grandi dimensioni (LLM) mostrino prestazioni impressionanti nel TTS zero-shot, tali metodi spesso soffrono di scarsa robustezza, come una prosodia instabile (tonalità e ritmo/durata anomali) e un alto tasso di errore sulle parole (WER), a causa dello stile di previsione autoregressiva dei modelli linguistici. L'idea centrale di RALL-E è il prompting a catena di pensiero (CoT), che scompone il compito in passaggi più semplici per migliorare la robustezza del TTS basato su LLM. Per realizzare questa idea, RALL-E prevede prima le caratteristiche prosodiche (tonalità e durata) del testo di input e le utilizza come condizioni intermedie per prevedere i token vocali in uno stile CoT. In secondo luogo, RALL-E utilizza il prompt di durata previsto per guidare il calcolo dei pesi di self-attention nel Transformer, imponendo al modello di concentrarsi sui fonemi e sulle caratteristiche prosodiche corrispondenti durante la previsione dei token vocali. I risultati di valutazioni oggettive e soggettive complete dimostrano che, rispetto a un potente metodo di riferimento come VALL-E, RALL-E migliora significativamente il WER del TTS zero-shot, passando rispettivamente dal 6,3% (senza riordinamento) e dal 2,1% (con riordinamento) al 2,8% e all'1,0%. Inoltre, dimostriamo che RALL-E sintetizza correttamente frasi difficili per VALL-E e riduce il tasso di errore dal 68% al 4%.
English
We present RALL-E, a robust language modeling method for text-to-speech (TTS) synthesis. While previous work based on large language models (LLMs) shows impressive performance on zero-shot TTS, such methods often suffer from poor robustness, such as unstable prosody (weird pitch and rhythm/duration) and a high word error rate (WER), due to the autoregressive prediction style of language models. The core idea behind RALL-E is chain-of-thought (CoT) prompting, which decomposes the task into simpler steps to enhance the robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts prosody features (pitch and duration) of the input text and uses them as intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E utilizes the predicted duration prompt to guide the computing of self-attention weights in Transformer to enforce the model to focus on the corresponding phonemes and prosody features when predicting speech tokens. Results of comprehensive objective and subjective evaluations demonstrate that, compared to a powerful baseline method VALL-E, RALL-E significantly improves the WER of zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to 2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E correctly synthesizes sentences that are hard for VALL-E and reduces the error rate from 68% to 4%.
PDF100February 8, 2026