Mega-TTS: Zero-Shot Text-naar-Spraak op Schaal met Intrinsieke Inductieve Bias

Samenvatting

Het schalen van tekst-naar-spraak naar een grote en diverse dataset is bewezen zeer effectief te zijn in het bereiken van generalisatie van timbre en spraakstijl, met name in zero-shot TTS. Eerdere werken coderen echter meestal spraak in latente representaties met behulp van audiocodecs en gebruiken autoregressieve taalmodellen of diffusiemodellen om deze te genereren, wat de intrinsieke aard van spraak negeert en kan leiden tot inferieure of oncontroleerbare resultaten. Wij stellen dat spraak kan worden ontbonden in verschillende attributen (bijv. inhoud, timbre, prosodie en fase) en dat elk daarvan gemodelleerd zou moeten worden met een module met passende inductieve biases. Vanuit dit perspectief hebben we zorgvuldig een nieuw en groot zero-shot TTS-systeem ontworpen, genaamd Mega-TTS, dat getraind is met grootschalige, diverse data en verschillende attributen op verschillende manieren modelleert: 1) In plaats van latente representaties gecodeerd door een audiocodec te gebruiken als tussenliggende feature, kiezen we nog steeds voor spectrogrammen omdat deze fase en andere attributen goed scheiden. Fase kan op de juiste manier worden geconstrueerd door de GAN-gebaseerde vocoder en hoeft niet door het taalmodel te worden gemodelleerd. 2) We modelleren het timbre met behulp van globale vectoren, aangezien timbre een globaal attribuut is dat langzaam verandert in de tijd. 3) We gebruiken verder een VQGAN-gebaseerd akoestisch model om het spectrogram te genereren en een latent code taalmodel om de distributie van prosodie te benaderen, aangezien prosodie snel verandert in een zin en taalmodellen zowel lokale als langeafstandsafhankelijkheden kunnen vastleggen. We schalen Mega-TTS op naar multi-domein datasets met 20K uur aan spraak en evalueren de prestaties op onbekende sprekers. Experimentele resultaten tonen aan dat Mega-TTS state-of-the-art TTS-systemen overtreft op zero-shot TTS, spraakbewerking en cross-linguale TTS-taken, met superieure natuurlijkheid, robuustheid en sprekersgelijkenis dankzij de juiste inductieve bias van elke module. Audiovoorbeelden zijn beschikbaar op https://mega-tts.github.io/demo-page.

English

Scaling text-to-speech to a large and wild dataset has been proven to be highly effective in achieving timbre and speech style generalization, particularly in zero-shot TTS. However, previous works usually encode speech into latent using audio codec and use autoregressive language models or diffusion models to generate it, which ignores the intrinsic nature of speech and may lead to inferior or uncontrollable results. We argue that speech can be decomposed into several attributes (e.g., content, timbre, prosody, and phase) and each of them should be modeled using a module with appropriate inductive biases. From this perspective, we carefully design a novel and large zero-shot TTS system called Mega-TTS, which is trained with large-scale wild data and models different attributes in different ways: 1) Instead of using latent encoded by audio codec as the intermediate feature, we still choose spectrogram as it separates the phase and other attributes very well. Phase can be appropriately constructed by the GAN-based vocoder and does not need to be modeled by the language model. 2) We model the timbre using global vectors since timbre is a global attribute that changes slowly over time. 3) We further use a VQGAN-based acoustic model to generate the spectrogram and a latent code language model to fit the distribution of prosody, since prosody changes quickly over time in a sentence, and language models can capture both local and long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K hours of speech and evaluate its performance on unseen speakers. Experimental results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior naturalness, robustness, and speaker similarity due to the proper inductive bias of each module. Audio samples are available at https://mega-tts.github.io/demo-page.

Mega-TTS: Zero-Shot Text-naar-Spraak op Schaal met Intrinsieke Inductieve Bias

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Samenvatting

Support