RALL-E: Robustes Codec-Sprachmodell mit Ketten-Gedanken-Anregung für die Text-zu-Sprache-Synthese

papers.abstract

Wir präsentieren RALL-E, eine robuste Methode für die Modellierung von Sprache zur Synthese von Text-zu-Sprache (TTS). Während frühere Arbeiten, die auf großen Sprachmodellen (LLMs) basieren, beeindruckende Leistungen bei der TTS ohne vorheriges Training zeigen, leiden solche Methoden oft unter mangelnder Robustheit, wie instabiler Prosodie (seltsame Tonhöhe und Rhythmus/Dauer) und einer hohen Wortfehlerrate (WER), aufgrund des autoregressiven Vorhersagestils von Sprachmodellen. Die Kernidee hinter RALL-E ist das "Chain-of-Thought" (CoT)-Prompting, das die Aufgabe in einfachere Schritte zerlegt, um die Robustheit von LLM-basierten TTS zu verbessern. Um diese Idee umzusetzen, sagt RALL-E zunächst Prosodie-Merkmale (Tonhöhe und Dauer) des Eingabetextes vorher und verwendet sie als Zwischenbedingungen, um Sprachtoken in einem CoT-Stil vorherzusagen. Zweitens nutzt RALL-E das vorhergesagte Dauer-Prompt, um die Berechnung der Self-Attention-Gewichte im Transformer zu lenken und das Modell dazu zu zwingen, sich auf die entsprechenden Phoneme und Prosodie-Merkmale zu konzentrieren, wenn es Sprachtoken vorhersagt. Die Ergebnisse umfassender objektiver und subjektiver Bewertungen zeigen, dass RALL-E im Vergleich zu einer leistungsstarken Basismethode VALL-E die WER der TTS ohne vorheriges Training signifikant verbessert, von 6,3% (ohne Neusortierung) und 2,1% (mit Neusortierung) auf jeweils 2,8% und 1,0%. Darüber hinaus zeigen wir, dass RALL-E Sätze korrekt synthetisiert, die für VALL-E schwierig sind, und den Fehleranteil von 68% auf 4% reduziert.

English

We present RALL-E, a robust language modeling method for text-to-speech (TTS) synthesis. While previous work based on large language models (LLMs) shows impressive performance on zero-shot TTS, such methods often suffer from poor robustness, such as unstable prosody (weird pitch and rhythm/duration) and a high word error rate (WER), due to the autoregressive prediction style of language models. The core idea behind RALL-E is chain-of-thought (CoT) prompting, which decomposes the task into simpler steps to enhance the robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts prosody features (pitch and duration) of the input text and uses them as intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E utilizes the predicted duration prompt to guide the computing of self-attention weights in Transformer to enforce the model to focus on the corresponding phonemes and prosody features when predicting speech tokens. Results of comprehensive objective and subjective evaluations demonstrate that, compared to a powerful baseline method VALL-E, RALL-E significantly improves the WER of zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to 2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E correctly synthesizes sentences that are hard for VALL-E and reduces the error rate from 68% to 4%.

RALL-E: Robustes Codec-Sprachmodell mit Ketten-Gedanken-Anregung für die Text-zu-Sprache-Synthese

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

papers.abstract

Support