RALL-E: Устойчивое моделирование языка кодека с цепочкой мыслей для синтеза речи из текста
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
April 4, 2024
Авторы: Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao
cs.AI
Аннотация
Мы представляем RALL-E, метод моделирования языка для синтеза речи из текста. В то время как предыдущие работы, основанные на больших языковых моделях (LLM), показывают впечатляющую производительность в нулевом режиме TTS, такие методы часто страдают от недостаточной устойчивости, такой как нестабильная прозодия (странный тон и ритм/длительность) и высокий уровень ошибок слов (WER), из-за авторегрессионного стиля предсказания языковых моделей. Основная идея за RALL-E - это подсказка цепочки мыслей (CoT), которая декомпозирует задачу на более простые шаги для улучшения устойчивости TTS на основе LLM. Для реализации этой идеи RALL-E сначала предсказывает характеристики прозодии (тон и длительность) входного текста и использует их в качестве промежуточных условий для предсказания речевых токенов в стиле CoT. Во-вторых, RALL-E использует предсказанную подсказку длительности для направления вычисления весов самовнимания в трансформере, чтобы заставить модель сосредоточиться на соответствующих фонемах и характеристиках прозодии при предсказании речевых токенов. Результаты обширных объективных и субъективных оценок демонстрируют, что по сравнению с мощным базовым методом VALL-E, RALL-E значительно улучшает WER в нулевом режиме TTS с 6.3% (без переранжирования) и 2.1% (с переранжированием) до 2.8% и 1.0% соответственно. Более того, мы показываем, что RALL-E правильно синтезирует предложения, которые сложны для VALL-E, и снижает уровень ошибок с 68% до 4%.
English
We present RALL-E, a robust language modeling method for text-to-speech (TTS)
synthesis. While previous work based on large language models (LLMs) shows
impressive performance on zero-shot TTS, such methods often suffer from poor
robustness, such as unstable prosody (weird pitch and rhythm/duration) and a
high word error rate (WER), due to the autoregressive prediction style of
language models. The core idea behind RALL-E is chain-of-thought (CoT)
prompting, which decomposes the task into simpler steps to enhance the
robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts
prosody features (pitch and duration) of the input text and uses them as
intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E
utilizes the predicted duration prompt to guide the computing of self-attention
weights in Transformer to enforce the model to focus on the corresponding
phonemes and prosody features when predicting speech tokens. Results of
comprehensive objective and subjective evaluations demonstrate that, compared
to a powerful baseline method VALL-E, RALL-E significantly improves the WER of
zero-shot TTS from 6.3% (without reranking) and 2.1% (with reranking) to
2.8% and 1.0%, respectively. Furthermore, we demonstrate that RALL-E
correctly synthesizes sentences that are hard for VALL-E and reduces the error
rate from 68% to 4%.Summary
AI-Generated Summary