Mega-TTS 2: Синтез речи с нулевым обучением на основе текстовых подсказок произвольной длины
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts
July 14, 2023
Авторы: Ziyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Аннотация
Задача синтеза речи с нулевым обучением (zero-shot text-to-speech) заключается в создании голосов на основе речевых подсказок, которые ранее не использовались. Предыдущие крупномасштабные модели синтеза речи для нескольких говорящих успешно достигали этой цели с использованием записи длительностью до 10 секунд. Однако большинство из них предназначены для работы только с короткими речевыми подсказками. Ограниченная информация в коротких подсказках существенно снижает качество имитации тонких характеристик голоса. В данной статье мы представляем Mega-TTS 2 — универсальную модель синтеза речи для нескольких говорящих с нулевым обучением, способную синтезировать речь для неизвестных говорящих на основе подсказок произвольной длины. В частности, мы 1) разработали многоканальный энкодер тембра для извлечения информации о тембре из нескольких речевых образцов; 2) обучили языковую модель просодии на основе речевых подсказок произвольной длины. Благодаря этим решениям наша модель подходит для подсказок разной длины, что расширяет верхний предел качества синтеза речи с нулевым обучением. Помимо подсказок произвольной длины, мы вводим подсказки произвольного источника, которые используют вероятности, полученные из выходных данных нескольких P-LLM, для создания выразительной и контролируемой просодии. Кроме того, мы предлагаем авторегрессионную модель длительности на уровне фонем, чтобы добавить возможности обучения в контексте для моделирования длительности. Эксперименты показывают, что наш метод не только синтезирует речь, сохраняющую идентичность говорящего, на основе короткой подсказки, но и демонстрирует улучшенные результаты при использовании более длинных речевых подсказок. Аудиообразцы доступны по ссылке: https://mega-tts.github.io/mega2_demo/.
English
Zero-shot text-to-speech aims at synthesizing voices with unseen speech
prompts. Previous large-scale multispeaker TTS models have successfully
achieved this goal with an enrolled recording within 10 seconds. However, most
of them are designed to utilize only short speech prompts. The limited
information in short speech prompts significantly hinders the performance of
fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a
generic zero-shot multispeaker TTS model that is capable of synthesizing speech
for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a
multi-reference timbre encoder to extract timbre information from multiple
reference speeches; 2) and train a prosody language model with arbitrary-length
speech prompts; With these designs, our model is suitable for prompts of
different lengths, which extends the upper bound of speech quality for
zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce
arbitrary-source prompts, which leverages the probabilities derived from
multiple P-LLM outputs to produce expressive and controlled prosody.
Furthermore, we propose a phoneme-level auto-regressive duration model to
introduce in-context learning capabilities to duration modeling. Experiments
demonstrate that our method could not only synthesize identity-preserving
speech with a short prompt of an unseen speaker but also achieve improved
performance with longer speech prompts. Audio samples can be found in
https://mega-tts.github.io/mega2_demo/.