Mega-TTS 2: Conversão de Texto em Fala com Prompts de Fala de Comprimento Arbitrário em Zero-Shot
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts
July 14, 2023
Autores: Ziyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Resumo
A síntese de texto para fala (TTS) zero-shot tem como objetivo gerar vozes a partir de prompts de fala nunca antes vistos. Modelos anteriores de TTS multiletores em larga escala já alcançaram esse objetivo com uma gravação de inscrição de até 10 segundos. No entanto, a maioria desses modelos foi projetada para utilizar apenas prompts de fala curtos. A informação limitada em prompts curtos prejudica significativamente o desempenho da imitação de identidade em nível granular. Neste artigo, apresentamos o Mega-TTS 2, um modelo genérico de TTS multiletores zero-shot capaz de sintetizar fala para locutores não vistos com prompts de comprimento arbitrário. Especificamente, 1) projetamos um codificador de timbre multirreferência para extrair informações de timbre de múltiplas gravações de referência; 2) treinamos um modelo de linguagem de prosódia com prompts de fala de comprimento arbitrário. Com essas abordagens, nosso modelo é adequado para prompts de diferentes comprimentos, o que eleva o limite superior da qualidade de fala para TTS zero-shot. Além de prompts de comprimento arbitrário, introduzimos prompts de fonte arbitrária, que aproveitam as probabilidades derivadas de múltiplas saídas de P-LLM para produzir prosódia expressiva e controlada. Adicionalmente, propomos um modelo de duração autoregressivo em nível de fonema para introduzir capacidades de aprendizado em contexto na modelagem de duração. Experimentos demonstram que nosso método não apenas sintetiza fala que preserva a identidade com um prompt curto de um locutor não visto, mas também alcança desempenho aprimorado com prompts de fala mais longos. Amostras de áudio podem ser encontradas em https://mega-tts.github.io/mega2_demo/.
English
Zero-shot text-to-speech aims at synthesizing voices with unseen speech
prompts. Previous large-scale multispeaker TTS models have successfully
achieved this goal with an enrolled recording within 10 seconds. However, most
of them are designed to utilize only short speech prompts. The limited
information in short speech prompts significantly hinders the performance of
fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a
generic zero-shot multispeaker TTS model that is capable of synthesizing speech
for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a
multi-reference timbre encoder to extract timbre information from multiple
reference speeches; 2) and train a prosody language model with arbitrary-length
speech prompts; With these designs, our model is suitable for prompts of
different lengths, which extends the upper bound of speech quality for
zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce
arbitrary-source prompts, which leverages the probabilities derived from
multiple P-LLM outputs to produce expressive and controlled prosody.
Furthermore, we propose a phoneme-level auto-regressive duration model to
introduce in-context learning capabilities to duration modeling. Experiments
demonstrate that our method could not only synthesize identity-preserving
speech with a short prompt of an unseen speaker but also achieve improved
performance with longer speech prompts. Audio samples can be found in
https://mega-tts.github.io/mega2_demo/.