Mega-TTS 2: Texto a Voz con Capacidad Zero-Shot y Prompts de Voz de Longitud Arbitraria
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts
July 14, 2023
Autores: Ziyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Resumen
La síntesis de voz de texto a voz (TTS) en modo zero-shot tiene como objetivo generar voces utilizando indicaciones de habla no vistas previamente. Los modelos TTS multihablante a gran escala anteriores han logrado con éxito este objetivo utilizando una grabación de inscripción de menos de 10 segundos. Sin embargo, la mayoría de estos modelos están diseñados para utilizar únicamente indicaciones de habla cortas. La información limitada en estas indicaciones cortas dificulta significativamente la imitación detallada de la identidad. En este artículo, presentamos Mega-TTS 2, un modelo TTS multihablante zero-shot genérico capaz de sintetizar habla para hablantes no vistos utilizando indicaciones de longitud arbitraria. Específicamente, 1) diseñamos un codificador de timbre multireferencia para extraer información de timbre a partir de múltiples referencias de habla; 2) entrenamos un modelo de lenguaje de prosodia con indicaciones de habla de longitud arbitraria. Con estos diseños, nuestro modelo es adecuado para indicaciones de diferentes longitudes, lo que extiende el límite superior de la calidad del habla en TTS zero-shot. Además de las indicaciones de longitud arbitraria, introducimos indicaciones de fuente arbitraria, que aprovechan las probabilidades derivadas de múltiples salidas de P-LLM para producir una prosodia expresiva y controlada. Asimismo, proponemos un modelo de duración autoregresivo a nivel de fonema para incorporar capacidades de aprendizaje en contexto en el modelado de duración. Los experimentos demuestran que nuestro método no solo puede sintetizar habla que preserva la identidad con una indicación corta de un hablante no visto, sino que también mejora su rendimiento con indicaciones de habla más largas. Las muestras de audio pueden encontrarse en https://mega-tts.github.io/mega2_demo/.
English
Zero-shot text-to-speech aims at synthesizing voices with unseen speech
prompts. Previous large-scale multispeaker TTS models have successfully
achieved this goal with an enrolled recording within 10 seconds. However, most
of them are designed to utilize only short speech prompts. The limited
information in short speech prompts significantly hinders the performance of
fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a
generic zero-shot multispeaker TTS model that is capable of synthesizing speech
for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a
multi-reference timbre encoder to extract timbre information from multiple
reference speeches; 2) and train a prosody language model with arbitrary-length
speech prompts; With these designs, our model is suitable for prompts of
different lengths, which extends the upper bound of speech quality for
zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce
arbitrary-source prompts, which leverages the probabilities derived from
multiple P-LLM outputs to produce expressive and controlled prosody.
Furthermore, we propose a phoneme-level auto-regressive duration model to
introduce in-context learning capabilities to duration modeling. Experiments
demonstrate that our method could not only synthesize identity-preserving
speech with a short prompt of an unseen speaker but also achieve improved
performance with longer speech prompts. Audio samples can be found in
https://mega-tts.github.io/mega2_demo/.