RALL-E: Robuste Codec-taalmodellering met Chain-of-Thought Prompting voor tekst-naar-spraaksynthese
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
April 4, 2024
Auteurs: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao
cs.AI
Samenvatting
We presenteren RALL-E, een robuuste taalmodelleringsmethode voor tekst-naar-spraak (TTS) synthese. Hoewel eerder werk gebaseerd op grote taalmodellen (LLM's) indrukwekkende prestaties laat zien op zero-shot TTS, lijden dergelijke methoden vaak aan een gebrek aan robuustheid, zoals onstabiele prosodie (vreemde toonhoogte en ritme/duur) en een hoog woordfoutenpercentage (WER), vanwege de autoregressieve voorspellingsstijl van taalmodellen. De kernidee achter RALL-E is chain-of-thought (CoT) prompting, waarbij de taak wordt opgedeeld in eenvoudigere stappen om de robuustheid van LLM-gebaseerde TTS te verbeteren. Om dit idee te realiseren, voorspelt RALL-E eerst prosodiekenmerken (toonhoogte en duur) van de invoertekst en gebruikt deze als tussenliggende voorwaarden om spraaktokens in een CoT-stijl te voorspellen. Ten tweede maakt RALL-E gebruik van de voorspelde duurprompt om de berekening van self-attention-gewichten in de Transformer te sturen, zodat het model zich richt op de corresponderende fonemen en prosodiekenmerken bij het voorspellen van spraaktokens. De resultaten van uitgebreide objectieve en subjectieve evaluaties tonen aan dat, vergeleken met een krachtige baseline-methode VALL-E, RALL-E het WER van zero-shot TTS aanzienlijk verbetert van 6,3% (zonder herrangschikking) en 2,1% (met herrangschikking) naar respectievelijk 2,8% en 1,0%. Bovendien laten we zien dat RALL-E zinnen die moeilijk zijn voor VALL-E correct synthetiseert en het foutenpercentage verlaagt van 68% naar 4%.
English
We present RALL-E, a robust language modeling method for text-to-speech (TTS)
synthesis. While previous work based on large language models (LLMs) shows
impressive performance on zero-shot TTS, such methods often suffer from poor
robustness, such as unstable prosody (weird pitch and rhythm/duration) and a
high word error rate (WER), due to the autoregressive prediction style of
language models. The core idea behind RALL-E is chain-of-thought (CoT)
prompting, which decomposes the task into simpler steps to enhance the
robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts
prosody features (pitch and duration) of the input text and uses them as
intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E
utilizes the predicted duration prompt to guide the computing of self-attention
weights in Transformer to enforce the model to focus on the corresponding
phonemes and prosody features when predicting speech tokens. Results of
comprehensive objective and subjective evaluations demonstrate that, compared
to a powerful baseline method VALL-E, RALL-E significantly improves the WER of
zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to
2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E
correctly synthesizes sentences that are hard for VALL-E and reduces the error
rate from 68% to 4%.