Mega-TTS 2: Sintesi Vocale Zero-Shot con Prompt Vocali di Lunghezza Arbitraria

Abstract

Lo zero-shot text-to-speech mira a sintetizzare voci utilizzando prompt vocali non visti in precedenza. I precedenti modelli TTS multi-relatore su larga scala hanno raggiunto con successo questo obiettivo con una registrazione di iscrizione entro 10 secondi. Tuttavia, la maggior parte di essi è progettata per utilizzare solo prompt vocali brevi. Le informazioni limitate nei prompt vocali brevi ostacolano significativamente le prestazioni dell'imitazione fine dell'identità. In questo articolo, introduciamo Mega-TTS 2, un modello TTS multi-relatore zero-shot generico in grado di sintetizzare il parlato per relatori non visti con prompt di lunghezza arbitraria. Nello specifico, 1) progettiamo un encoder timbrico multi-riferimento per estrarre informazioni timbriche da più discorsi di riferimento; 2) addestriamo un modello linguistico di prosodia con prompt vocali di lunghezza arbitraria; Con questi progetti, il nostro modello è adatto per prompt di diverse lunghezze, il che estende il limite superiore della qualità del parlato per lo zero-shot text-to-speech. Oltre ai prompt di lunghezza arbitraria, introduciamo prompt di fonte arbitraria, che sfruttano le probabilità derivate da più output di P-LLM per produrre una prosodia espressiva e controllata. Inoltre, proponiamo un modello di durata auto-regressivo a livello di fonema per introdurre capacità di apprendimento in-context nella modellazione della durata. Gli esperimenti dimostrano che il nostro metodo non solo potrebbe sintetizzare un parlato che preserva l'identità con un breve prompt di un relatore non visto, ma anche ottenere prestazioni migliorate con prompt vocali più lunghi. I campioni audio possono essere trovati su https://mega-tts.github.io/mega2_demo/.

English

Zero-shot text-to-speech aims at synthesizing voices with unseen speech prompts. Previous large-scale multispeaker TTS models have successfully achieved this goal with an enrolled recording within 10 seconds. However, most of them are designed to utilize only short speech prompts. The limited information in short speech prompts significantly hinders the performance of fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a generic zero-shot multispeaker TTS model that is capable of synthesizing speech for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a multi-reference timbre encoder to extract timbre information from multiple reference speeches; 2) and train a prosody language model with arbitrary-length speech prompts; With these designs, our model is suitable for prompts of different lengths, which extends the upper bound of speech quality for zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce arbitrary-source prompts, which leverages the probabilities derived from multiple P-LLM outputs to produce expressive and controlled prosody. Furthermore, we propose a phoneme-level auto-regressive duration model to introduce in-context learning capabilities to duration modeling. Experiments demonstrate that our method could not only synthesize identity-preserving speech with a short prompt of an unseen speaker but also achieve improved performance with longer speech prompts. Audio samples can be found in https://mega-tts.github.io/mega2_demo/.

Mega-TTS 2: Sintesi Vocale Zero-Shot con Prompt Vocali di Lunghezza Arbitraria

Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

Abstract

Support