Mega-TTS 2: Zero-Shot Text-to-Spraak met Willekeurige Lengte Spraakprompts
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts
July 14, 2023
Auteurs: Ziyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Samenvatting
Zero-shot text-to-speech heeft als doel stemmen te synthetiseren met onbekende spraakprompts. Eerdere grootschalige multispeaker TTS-modellen hebben dit doel succesvol bereikt met een ingeschreven opname van minder dan 10 seconden. De meeste van deze modellen zijn echter ontworpen om alleen korte spraakprompts te gebruiken. De beperkte informatie in korte spraakprompts belemmert aanzienlijk de prestaties van fijnmazige identiteitsimitatie. In dit artikel introduceren we Mega-TTS 2, een generiek zero-shot multispeaker TTS-model dat in staat is spraak te synthetiseren voor onbekende sprekers met prompts van willekeurige lengte. Specifiek 1) ontwerpen we een multi-referentie timbre-encoder om timbre-informatie uit meerdere referentiespraken te extraheren; 2) trainen we een prosodie-taalmodel met spraakprompts van willekeurige lengte; Met deze ontwerpen is ons model geschikt voor prompts van verschillende lengtes, wat de bovengrens van de spraakkwaliteit voor zero-shot text-to-speech verlegt. Naast prompts van willekeurige lengte introduceren we prompts van willekeurige bronnen, die gebruikmaken van de waarschijnlijkheden afgeleid uit meerdere P-LLM-uitvoeringen om expressieve en gecontroleerde prosodie te produceren. Bovendien stellen we een fonemniveau autoregressief duurmodel voor om in-context leermogelijkheden te introduceren in duurmodellering. Experimenten tonen aan dat onze methode niet alleen identiteitsbewarende spraak kan synthetiseren met een korte prompt van een onbekende spreker, maar ook verbeterde prestaties kan bereiken met langere spraakprompts. Audiovoorbeelden zijn te vinden op https://mega-tts.github.io/mega2_demo/.
English
Zero-shot text-to-speech aims at synthesizing voices with unseen speech
prompts. Previous large-scale multispeaker TTS models have successfully
achieved this goal with an enrolled recording within 10 seconds. However, most
of them are designed to utilize only short speech prompts. The limited
information in short speech prompts significantly hinders the performance of
fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a
generic zero-shot multispeaker TTS model that is capable of synthesizing speech
for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a
multi-reference timbre encoder to extract timbre information from multiple
reference speeches; 2) and train a prosody language model with arbitrary-length
speech prompts; With these designs, our model is suitable for prompts of
different lengths, which extends the upper bound of speech quality for
zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce
arbitrary-source prompts, which leverages the probabilities derived from
multiple P-LLM outputs to produce expressive and controlled prosody.
Furthermore, we propose a phoneme-level auto-regressive duration model to
introduce in-context learning capabilities to duration modeling. Experiments
demonstrate that our method could not only synthesize identity-preserving
speech with a short prompt of an unseen speaker but also achieve improved
performance with longer speech prompts. Audio samples can be found in
https://mega-tts.github.io/mega2_demo/.