Mega-TTS: Sintesi Vocale Zero-Shot su Grande Scala con Bias Induttivo Intrinseco
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias
June 6, 2023
Autori: Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI
Abstract
Il ridimensionamento della sintesi vocale su un ampio e variegato dataset si è dimostrato altamente efficace nel raggiungere la generalizzazione del timbro e dello stile vocale, specialmente nel contesto della sintesi vocale zero-shot. Tuttavia, i lavori precedenti codificano solitamente il parlato in latenti utilizzando codec audio e impiegano modelli linguistici autoregressivi o modelli di diffusione per generarlo, ignorando così la natura intrinseca del parlato e potenzialmente portando a risultati inferiori o incontrollabili. Sosteniamo che il parlato possa essere scomposto in diversi attributi (ad esempio, contenuto, timbro, prosodia e fase) e che ciascuno di essi debba essere modellato utilizzando un modulo con adeguati bias induttivi. Da questa prospettiva, abbiamo progettato con cura un nuovo e ampio sistema di sintesi vocale zero-shot chiamato Mega-TTS, addestrato con dati su larga scala e variegati, che modella i diversi attributi in modi distinti: 1) Invece di utilizzare latenti codificati da codec audio come caratteristica intermedia, abbiamo scelto lo spettrogramma poiché separa efficacemente la fase dagli altri attributi. La fase può essere opportunamente ricostruita dal vocoder basato su GAN e non necessita di essere modellata dal modello linguistico. 2) Modelliamo il timbro utilizzando vettori globali, poiché il timbro è un attributo globale che cambia lentamente nel tempo. 3) Utilizziamo inoltre un modello acustico basato su VQGAN per generare lo spettrogramma e un modello linguistico a codice latente per adattare la distribuzione della prosodia, dato che la prosodia cambia rapidamente nel tempo all'interno di una frase, e i modelli linguistici possono catturare sia dipendenze locali che a lungo raggio. Abbiamo ridimensionato Mega-TTS su dataset multi-dominio con 20.000 ore di parlato e valutato le sue prestazioni su parlatori non visti. I risultati sperimentali dimostrano che Mega-TTS supera i sistemi di sintesi vocale all'avanguardia nei compiti di sintesi vocale zero-shot, editing vocale e sintesi vocale cross-linguale, con una naturalezza, robustezza e somiglianza del parlante superiori, grazie ai corretti bias induttivi di ciascun modulo. Campioni audio sono disponibili su https://mega-tts.github.io/demo-page.
English
Scaling text-to-speech to a large and wild dataset has been proven to be
highly effective in achieving timbre and speech style generalization,
particularly in zero-shot TTS. However, previous works usually encode speech
into latent using audio codec and use autoregressive language models or
diffusion models to generate it, which ignores the intrinsic nature of speech
and may lead to inferior or uncontrollable results. We argue that speech can be
decomposed into several attributes (e.g., content, timbre, prosody, and phase)
and each of them should be modeled using a module with appropriate inductive
biases. From this perspective, we carefully design a novel and large zero-shot
TTS system called Mega-TTS, which is trained with large-scale wild data and
models different attributes in different ways: 1) Instead of using latent
encoded by audio codec as the intermediate feature, we still choose spectrogram
as it separates the phase and other attributes very well. Phase can be
appropriately constructed by the GAN-based vocoder and does not need to be
modeled by the language model. 2) We model the timbre using global vectors
since timbre is a global attribute that changes slowly over time. 3) We further
use a VQGAN-based acoustic model to generate the spectrogram and a latent code
language model to fit the distribution of prosody, since prosody changes
quickly over time in a sentence, and language models can capture both local and
long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K
hours of speech and evaluate its performance on unseen speakers. Experimental
results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on
zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior
naturalness, robustness, and speaker similarity due to the proper inductive
bias of each module. Audio samples are available at
https://mega-tts.github.io/demo-page.