Mega-TTS: Zero-Shot Text-naar-Spraak op Schaal met Intrinsieke Inductieve Bias
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias
June 6, 2023
Auteurs: Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Samenvatting
Het schalen van tekst-naar-spraak naar een grote en diverse dataset is bewezen zeer effectief te zijn in het bereiken van generalisatie van timbre en spraakstijl, met name in zero-shot TTS. Eerdere werken coderen echter meestal spraak in latente representaties met behulp van audiocodecs en gebruiken autoregressieve taalmodellen of diffusiemodellen om deze te genereren, wat de intrinsieke aard van spraak negeert en kan leiden tot inferieure of oncontroleerbare resultaten. Wij stellen dat spraak kan worden ontbonden in verschillende attributen (bijv. inhoud, timbre, prosodie en fase) en dat elk daarvan gemodelleerd zou moeten worden met een module met passende inductieve biases. Vanuit dit perspectief hebben we zorgvuldig een nieuw en groot zero-shot TTS-systeem ontworpen, genaamd Mega-TTS, dat getraind is met grootschalige, diverse data en verschillende attributen op verschillende manieren modelleert: 1) In plaats van latente representaties gecodeerd door een audiocodec te gebruiken als tussenliggende feature, kiezen we nog steeds voor spectrogrammen omdat deze fase en andere attributen goed scheiden. Fase kan op de juiste manier worden geconstrueerd door de GAN-gebaseerde vocoder en hoeft niet door het taalmodel te worden gemodelleerd. 2) We modelleren het timbre met behulp van globale vectoren, aangezien timbre een globaal attribuut is dat langzaam verandert in de tijd. 3) We gebruiken verder een VQGAN-gebaseerd akoestisch model om het spectrogram te genereren en een latent code taalmodel om de distributie van prosodie te benaderen, aangezien prosodie snel verandert in een zin en taalmodellen zowel lokale als langeafstandsafhankelijkheden kunnen vastleggen. We schalen Mega-TTS op naar multi-domein datasets met 20K uur aan spraak en evalueren de prestaties op onbekende sprekers. Experimentele resultaten tonen aan dat Mega-TTS state-of-the-art TTS-systemen overtreft op zero-shot TTS, spraakbewerking en cross-linguale TTS-taken, met superieure natuurlijkheid, robuustheid en sprekersgelijkenis dankzij de juiste inductieve bias van elke module. Audiovoorbeelden zijn beschikbaar op https://mega-tts.github.io/demo-page.
English
Scaling text-to-speech to a large and wild dataset has been proven to be
highly effective in achieving timbre and speech style generalization,
particularly in zero-shot TTS. However, previous works usually encode speech
into latent using audio codec and use autoregressive language models or
diffusion models to generate it, which ignores the intrinsic nature of speech
and may lead to inferior or uncontrollable results. We argue that speech can be
decomposed into several attributes (e.g., content, timbre, prosody, and phase)
and each of them should be modeled using a module with appropriate inductive
biases. From this perspective, we carefully design a novel and large zero-shot
TTS system called Mega-TTS, which is trained with large-scale wild data and
models different attributes in different ways: 1) Instead of using latent
encoded by audio codec as the intermediate feature, we still choose spectrogram
as it separates the phase and other attributes very well. Phase can be
appropriately constructed by the GAN-based vocoder and does not need to be
modeled by the language model. 2) We model the timbre using global vectors
since timbre is a global attribute that changes slowly over time. 3) We further
use a VQGAN-based acoustic model to generate the spectrogram and a latent code
language model to fit the distribution of prosody, since prosody changes
quickly over time in a sentence, and language models can capture both local and
long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K
hours of speech and evaluate its performance on unseen speakers. Experimental
results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on
zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior
naturalness, robustness, and speaker similarity due to the proper inductive
bias of each module. Audio samples are available at
https://mega-tts.github.io/demo-page.