Mega-TTS : Synthèse vocale à grande échelle en zero-shot avec biais inductif intrinsèque

Résumé

La mise à l'échelle de la synthèse vocale (text-to-speech) sur un vaste et diversifié ensemble de données s'est avérée très efficace pour généraliser le timbre et le style de parole, en particulier dans le cadre de la synthèse vocale zero-shot. Cependant, les travaux précédents encodent généralement la parole en latence à l'aide d'un codec audio et utilisent des modèles de langage autoregressifs ou des modèles de diffusion pour la générer, ce qui ignore la nature intrinsèque de la parole et peut conduire à des résultats inférieurs ou incontrôlables. Nous soutenons que la parole peut être décomposée en plusieurs attributs (par exemple, le contenu, le timbre, la prosodie et la phase) et que chacun d'eux devrait être modélisé à l'aide d'un module doté de biais inductifs appropriés. Dans cette perspective, nous concevons soigneusement un nouveau système de synthèse vocale zero-shot appelé Mega-TTS, qui est entraîné sur des données massives et variées et modélise les différents attributs de différentes manières : 1) Au lieu d'utiliser une latence encodée par un codec audio comme caractéristique intermédiaire, nous choisissons toujours le spectrogramme car il sépare bien la phase des autres attributs. La phase peut être correctement construite par un vocodeur basé sur GAN et n'a pas besoin d'être modélisée par le modèle de langage. 2) Nous modélisons le timbre à l'aide de vecteurs globaux, car le timbre est un attribut global qui évolue lentement dans le temps. 3) Nous utilisons en outre un modèle acoustique basé sur VQGAN pour générer le spectrogramme et un modèle de langage de code latent pour ajuster la distribution de la prosodie, car la prosodie change rapidement dans une phrase, et les modèles de langage peuvent capturer à la fois les dépendances locales et à long terme. Nous mettons à l'échelle Mega-TTS sur des ensembles de données multi-domaines contenant 20 000 heures de parole et évaluons ses performances sur des locuteurs inconnus. Les résultats expérimentaux démontrent que Mega-TTS surpasse les systèmes de synthèse vocale de pointe dans les tâches de synthèse zero-shot, d'édition de parole et de synthèse multilingue, avec une naturalité, une robustesse et une similarité de locuteur supérieures grâce aux biais inductifs appropriés de chaque module. Des échantillons audio sont disponibles à l'adresse https://mega-tts.github.io/demo-page.

English

Scaling text-to-speech to a large and wild dataset has been proven to be highly effective in achieving timbre and speech style generalization, particularly in zero-shot TTS. However, previous works usually encode speech into latent using audio codec and use autoregressive language models or diffusion models to generate it, which ignores the intrinsic nature of speech and may lead to inferior or uncontrollable results. We argue that speech can be decomposed into several attributes (e.g., content, timbre, prosody, and phase) and each of them should be modeled using a module with appropriate inductive biases. From this perspective, we carefully design a novel and large zero-shot TTS system called Mega-TTS, which is trained with large-scale wild data and models different attributes in different ways: 1) Instead of using latent encoded by audio codec as the intermediate feature, we still choose spectrogram as it separates the phase and other attributes very well. Phase can be appropriately constructed by the GAN-based vocoder and does not need to be modeled by the language model. 2) We model the timbre using global vectors since timbre is a global attribute that changes slowly over time. 3) We further use a VQGAN-based acoustic model to generate the spectrogram and a latent code language model to fit the distribution of prosody, since prosody changes quickly over time in a sentence, and language models can capture both local and long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K hours of speech and evaluate its performance on unseen speakers. Experimental results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior naturalness, robustness, and speaker similarity due to the proper inductive bias of each module. Audio samples are available at https://mega-tts.github.io/demo-page.

Mega-TTS : Synthèse vocale à grande échelle en zero-shot avec biais inductif intrinsèque

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Résumé

Support