Mega-TTS 2: Zero-Shot Text-to-Spraak met Willekeurige Lengte Spraakprompts

Samenvatting

Zero-shot text-to-speech heeft als doel stemmen te synthetiseren met onbekende spraakprompts. Eerdere grootschalige multispeaker TTS-modellen hebben dit doel succesvol bereikt met een ingeschreven opname van minder dan 10 seconden. De meeste van deze modellen zijn echter ontworpen om alleen korte spraakprompts te gebruiken. De beperkte informatie in korte spraakprompts belemmert aanzienlijk de prestaties van fijnmazige identiteitsimitatie. In dit artikel introduceren we Mega-TTS 2, een generiek zero-shot multispeaker TTS-model dat in staat is spraak te synthetiseren voor onbekende sprekers met prompts van willekeurige lengte. Specifiek 1) ontwerpen we een multi-referentie timbre-encoder om timbre-informatie uit meerdere referentiespraken te extraheren; 2) trainen we een prosodie-taalmodel met spraakprompts van willekeurige lengte; Met deze ontwerpen is ons model geschikt voor prompts van verschillende lengtes, wat de bovengrens van de spraakkwaliteit voor zero-shot text-to-speech verlegt. Naast prompts van willekeurige lengte introduceren we prompts van willekeurige bronnen, die gebruikmaken van de waarschijnlijkheden afgeleid uit meerdere P-LLM-uitvoeringen om expressieve en gecontroleerde prosodie te produceren. Bovendien stellen we een fonemniveau autoregressief duurmodel voor om in-context leermogelijkheden te introduceren in duurmodellering. Experimenten tonen aan dat onze methode niet alleen identiteitsbewarende spraak kan synthetiseren met een korte prompt van een onbekende spreker, maar ook verbeterde prestaties kan bereiken met langere spraakprompts. Audiovoorbeelden zijn te vinden op https://mega-tts.github.io/mega2_demo/.

English

Zero-shot text-to-speech aims at synthesizing voices with unseen speech prompts. Previous large-scale multispeaker TTS models have successfully achieved this goal with an enrolled recording within 10 seconds. However, most of them are designed to utilize only short speech prompts. The limited information in short speech prompts significantly hinders the performance of fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a generic zero-shot multispeaker TTS model that is capable of synthesizing speech for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a multi-reference timbre encoder to extract timbre information from multiple reference speeches; 2) and train a prosody language model with arbitrary-length speech prompts; With these designs, our model is suitable for prompts of different lengths, which extends the upper bound of speech quality for zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce arbitrary-source prompts, which leverages the probabilities derived from multiple P-LLM outputs to produce expressive and controlled prosody. Furthermore, we propose a phoneme-level auto-regressive duration model to introduce in-context learning capabilities to duration modeling. Experiments demonstrate that our method could not only synthesize identity-preserving speech with a short prompt of an unseen speaker but also achieve improved performance with longer speech prompts. Audio samples can be found in https://mega-tts.github.io/mega2_demo/.

Mega-TTS 2: Zero-Shot Text-to-Spraak met Willekeurige Lengte Spraakprompts

Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

Samenvatting

Support