ChatPaper.aiChatPaper

Mega-TTS 2 : Synthèse vocale en zero-shot avec des prompts vocaux de longueur arbitraire

Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

July 14, 2023
Auteurs: Ziyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

Résumé

La synthèse vocale zero-shot vise à générer des voix à partir d'invites vocales inédites. Les précédents modèles de synthèse vocale multi-locuteurs à grande échelle ont réussi à atteindre cet objectif avec un enregistrement d'inscription de moins de 10 secondes. Cependant, la plupart d'entre eux sont conçus pour n'utiliser que de courtes invites vocales. Le manque d'informations dans ces courtes invites limite considérablement la performance de l'imitation fine de l'identité. Dans cet article, nous présentons Mega-TTS 2, un modèle générique de synthèse vocale multi-locuteurs zero-shot capable de générer la parole pour des locuteurs inédits avec des invites de longueur arbitraire. Plus précisément, nous 1) concevons un encodeur de timbre multi-référence pour extraire les informations de timbre à partir de plusieurs références vocales ; 2) et entraînons un modèle de langage de prosodie avec des invites vocales de longueur arbitraire ; Grâce à ces conceptions, notre modèle est adapté à des invites de différentes longueurs, ce qui repousse la limite supérieure de la qualité vocale pour la synthèse zero-shot. En plus des invites de longueur arbitraire, nous introduisons des invites de source arbitraire, qui exploitent les probabilités dérivées de plusieurs sorties de P-LLM pour produire une prosodie expressive et contrôlée. Par ailleurs, nous proposons un modèle de durée auto-régressif au niveau phonémique pour introduire des capacités d'apprentissage en contexte dans la modélisation de la durée. Les expériences démontrent que notre méthode peut non seulement synthétiser une parole préservant l'identité avec une courte invite d'un locuteur inédit, mais aussi améliorer les performances avec des invites vocales plus longues. Des échantillons audio sont disponibles sur https://mega-tts.github.io/mega2_demo/.
English
Zero-shot text-to-speech aims at synthesizing voices with unseen speech prompts. Previous large-scale multispeaker TTS models have successfully achieved this goal with an enrolled recording within 10 seconds. However, most of them are designed to utilize only short speech prompts. The limited information in short speech prompts significantly hinders the performance of fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a generic zero-shot multispeaker TTS model that is capable of synthesizing speech for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a multi-reference timbre encoder to extract timbre information from multiple reference speeches; 2) and train a prosody language model with arbitrary-length speech prompts; With these designs, our model is suitable for prompts of different lengths, which extends the upper bound of speech quality for zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce arbitrary-source prompts, which leverages the probabilities derived from multiple P-LLM outputs to produce expressive and controlled prosody. Furthermore, we propose a phoneme-level auto-regressive duration model to introduce in-context learning capabilities to duration modeling. Experiments demonstrate that our method could not only synthesize identity-preserving speech with a short prompt of an unseen speaker but also achieve improved performance with longer speech prompts. Audio samples can be found in https://mega-tts.github.io/mega2_demo/.
PDF2710December 15, 2024