Mega-TTS : Synthèse vocale à grande échelle en zero-shot avec biais inductif intrinsèque
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias
June 6, 2023
Auteurs: Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Résumé
La mise à l'échelle de la synthèse vocale (text-to-speech) sur un vaste et diversifié ensemble de données s'est avérée très efficace pour généraliser le timbre et le style de parole, en particulier dans le cadre de la synthèse vocale zero-shot. Cependant, les travaux précédents encodent généralement la parole en latence à l'aide d'un codec audio et utilisent des modèles de langage autoregressifs ou des modèles de diffusion pour la générer, ce qui ignore la nature intrinsèque de la parole et peut conduire à des résultats inférieurs ou incontrôlables. Nous soutenons que la parole peut être décomposée en plusieurs attributs (par exemple, le contenu, le timbre, la prosodie et la phase) et que chacun d'eux devrait être modélisé à l'aide d'un module doté de biais inductifs appropriés. Dans cette perspective, nous concevons soigneusement un nouveau système de synthèse vocale zero-shot appelé Mega-TTS, qui est entraîné sur des données massives et variées et modélise les différents attributs de différentes manières : 1) Au lieu d'utiliser une latence encodée par un codec audio comme caractéristique intermédiaire, nous choisissons toujours le spectrogramme car il sépare bien la phase des autres attributs. La phase peut être correctement construite par un vocodeur basé sur GAN et n'a pas besoin d'être modélisée par le modèle de langage. 2) Nous modélisons le timbre à l'aide de vecteurs globaux, car le timbre est un attribut global qui évolue lentement dans le temps. 3) Nous utilisons en outre un modèle acoustique basé sur VQGAN pour générer le spectrogramme et un modèle de langage de code latent pour ajuster la distribution de la prosodie, car la prosodie change rapidement dans une phrase, et les modèles de langage peuvent capturer à la fois les dépendances locales et à long terme. Nous mettons à l'échelle Mega-TTS sur des ensembles de données multi-domaines contenant 20 000 heures de parole et évaluons ses performances sur des locuteurs inconnus. Les résultats expérimentaux démontrent que Mega-TTS surpasse les systèmes de synthèse vocale de pointe dans les tâches de synthèse zero-shot, d'édition de parole et de synthèse multilingue, avec une naturalité, une robustesse et une similarité de locuteur supérieures grâce aux biais inductifs appropriés de chaque module. Des échantillons audio sont disponibles à l'adresse https://mega-tts.github.io/demo-page.
English
Scaling text-to-speech to a large and wild dataset has been proven to be
highly effective in achieving timbre and speech style generalization,
particularly in zero-shot TTS. However, previous works usually encode speech
into latent using audio codec and use autoregressive language models or
diffusion models to generate it, which ignores the intrinsic nature of speech
and may lead to inferior or uncontrollable results. We argue that speech can be
decomposed into several attributes (e.g., content, timbre, prosody, and phase)
and each of them should be modeled using a module with appropriate inductive
biases. From this perspective, we carefully design a novel and large zero-shot
TTS system called Mega-TTS, which is trained with large-scale wild data and
models different attributes in different ways: 1) Instead of using latent
encoded by audio codec as the intermediate feature, we still choose spectrogram
as it separates the phase and other attributes very well. Phase can be
appropriately constructed by the GAN-based vocoder and does not need to be
modeled by the language model. 2) We model the timbre using global vectors
since timbre is a global attribute that changes slowly over time. 3) We further
use a VQGAN-based acoustic model to generate the spectrogram and a latent code
language model to fit the distribution of prosody, since prosody changes
quickly over time in a sentence, and language models can capture both local and
long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K
hours of speech and evaluate its performance on unseen speakers. Experimental
results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on
zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior
naturalness, robustness, and speaker similarity due to the proper inductive
bias of each module. Audio samples are available at
https://mega-tts.github.io/demo-page.