RALL-E: Modellamento Linguistico Robusto del Codec con Prompting a Catena di Pensiero per la Sintesi da Testo a Voce
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
April 4, 2024
Autori: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao
cs.AI
Abstract
Presentiamo RALL-E, un metodo robusto di modellazione del linguaggio per la sintesi testo-voce (TTS). Sebbene i lavori precedenti basati su modelli linguistici di grandi dimensioni (LLM) mostrino prestazioni impressionanti nel TTS zero-shot, tali metodi spesso soffrono di scarsa robustezza, come una prosodia instabile (tonalità e ritmo/durata anomali) e un alto tasso di errore sulle parole (WER), a causa dello stile di previsione autoregressiva dei modelli linguistici. L'idea centrale di RALL-E è il prompting a catena di pensiero (CoT), che scompone il compito in passaggi più semplici per migliorare la robustezza del TTS basato su LLM. Per realizzare questa idea, RALL-E prevede prima le caratteristiche prosodiche (tonalità e durata) del testo di input e le utilizza come condizioni intermedie per prevedere i token vocali in uno stile CoT. In secondo luogo, RALL-E utilizza il prompt di durata previsto per guidare il calcolo dei pesi di self-attention nel Transformer, imponendo al modello di concentrarsi sui fonemi e sulle caratteristiche prosodiche corrispondenti durante la previsione dei token vocali. I risultati di valutazioni oggettive e soggettive complete dimostrano che, rispetto a un potente metodo di riferimento come VALL-E, RALL-E migliora significativamente il WER del TTS zero-shot, passando rispettivamente dal 6,3% (senza riordinamento) e dal 2,1% (con riordinamento) al 2,8% e all'1,0%. Inoltre, dimostriamo che RALL-E sintetizza correttamente frasi difficili per VALL-E e riduce il tasso di errore dal 68% al 4%.
English
We present RALL-E, a robust language modeling method for text-to-speech (TTS)
synthesis. While previous work based on large language models (LLMs) shows
impressive performance on zero-shot TTS, such methods often suffer from poor
robustness, such as unstable prosody (weird pitch and rhythm/duration) and a
high word error rate (WER), due to the autoregressive prediction style of
language models. The core idea behind RALL-E is chain-of-thought (CoT)
prompting, which decomposes the task into simpler steps to enhance the
robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts
prosody features (pitch and duration) of the input text and uses them as
intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E
utilizes the predicted duration prompt to guide the computing of self-attention
weights in Transformer to enforce the model to focus on the corresponding
phonemes and prosody features when predicting speech tokens. Results of
comprehensive objective and subjective evaluations demonstrate that, compared
to a powerful baseline method VALL-E, RALL-E significantly improves the WER of
zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to
2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E
correctly synthesizes sentences that are hard for VALL-E and reduces the error
rate from 68% to 4%.