RALL-E : Modélisation robuste du langage de codec avec incitation en chaîne de pensée pour la synthèse de parole à partir de texte
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
April 4, 2024
Auteurs: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao
cs.AI
Résumé
Nous présentons RALL-E, une méthode robuste de modélisation du langage pour la synthèse texte-à-parole (TTS). Bien que les travaux précédents basés sur les grands modèles de langage (LLM) montrent des performances impressionnantes en TTS zero-shot, ces méthodes souffrent souvent d'une faible robustesse, comme une prosodie instable (hauteur et rythme/durée étranges) et un taux d'erreur sur les mots (WER) élevé, en raison du style de prédiction autoregressif des modèles de langage. L'idée centrale de RALL-E est l'incitation par chaîne de pensée (CoT), qui décompose la tâche en étapes plus simples pour améliorer la robustesse du TTS basé sur les LLM. Pour réaliser cette idée, RALL-E prédit d'abord les caractéristiques de prosodie (hauteur et durée) du texte d'entrée et les utilise comme conditions intermédiaires pour prédire les tokens de parole dans un style CoT. Ensuite, RALL-E utilise l'incitation de durée prédite pour guider le calcul des poids d'auto-attention dans le Transformer, afin de forcer le modèle à se concentrer sur les phonèmes et les caractéristiques de prosodie correspondants lors de la prédiction des tokens de parole. Les résultats d'évaluations objectives et subjectives approfondies démontrent que, par rapport à une méthode de référence puissante, VALL-E, RALL-E améliore significativement le WER du TTS zero-shot, passant de 6,3 % (sans reclassement) et 2,1 % (avec reclassement) à 2,8 % et 1,0 %, respectivement. De plus, nous montrons que RALL-E synthétise correctement des phrases difficiles pour VALL-E et réduit le taux d'erreur de 68 % à 4 %.
English
We present RALL-E, a robust language modeling method for text-to-speech (TTS)
synthesis. While previous work based on large language models (LLMs) shows
impressive performance on zero-shot TTS, such methods often suffer from poor
robustness, such as unstable prosody (weird pitch and rhythm/duration) and a
high word error rate (WER), due to the autoregressive prediction style of
language models. The core idea behind RALL-E is chain-of-thought (CoT)
prompting, which decomposes the task into simpler steps to enhance the
robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts
prosody features (pitch and duration) of the input text and uses them as
intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E
utilizes the predicted duration prompt to guide the computing of self-attention
weights in Transformer to enforce the model to focus on the corresponding
phonemes and prosody features when predicting speech tokens. Results of
comprehensive objective and subjective evaluations demonstrate that, compared
to a powerful baseline method VALL-E, RALL-E significantly improves the WER of
zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to
2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E
correctly synthesizes sentences that are hard for VALL-E and reduces the error
rate from 68% to 4%.Summary
AI-Generated Summary