ChatPaper.aiChatPaper

Mega-TTS: Síntesis de Voz de Texto a Escala con Cero Ejemplos y Sesgo Inductivo Intrínseco

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

June 6, 2023
Autores: Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

Resumen

Escalar la síntesis de voz a partir de texto (text-to-speech) a un conjunto de datos grande y diverso ha demostrado ser altamente efectivo para lograr generalización en el timbre y el estilo de habla, particularmente en TTS zero-shot. Sin embargo, trabajos anteriores suelen codificar el habla en latentes utilizando códecs de audio y emplean modelos de lenguaje autoregresivos o modelos de difusión para generarla, lo que ignora la naturaleza intrínseca del habla y puede resultar en resultados inferiores o incontrolables. Argumentamos que el habla puede descomponerse en varios atributos (por ejemplo, contenido, timbre, prosodia y fase) y que cada uno de ellos debe modelarse utilizando un módulo con sesgos inductivos apropiados. Desde esta perspectiva, diseñamos cuidadosamente un sistema novedoso y de gran escala para TTS zero-shot llamado Mega-TTS, el cual se entrena con datos diversos a gran escala y modela diferentes atributos de distintas maneras: 1) En lugar de utilizar latentes codificados por códecs de audio como característica intermedia, elegimos el espectrograma, ya que separa bien la fase de otros atributos. La fase puede construirse adecuadamente mediante un vocoder basado en GAN y no necesita ser modelada por el modelo de lenguaje. 2) Modelamos el timbre utilizando vectores globales, ya que el timbre es un atributo global que cambia lentamente en el tiempo. 3) Además, empleamos un modelo acústico basado en VQGAN para generar el espectrograma y un modelo de lenguaje de códigos latentes para ajustar la distribución de la prosodia, dado que la prosodia cambia rápidamente en el tiempo dentro de una oración, y los modelos de lenguaje pueden capturar dependencias tanto locales como de largo alcance. Escalamos Mega-TTS a conjuntos de datos multidominio con 20,000 horas de habla y evaluamos su rendimiento en hablantes no vistos. Los resultados experimentales demuestran que Mega-TTS supera a los sistemas TTS más avanzados en tareas de TTS zero-shot, edición de habla y TTS multilingüe, con una naturalidad, robustez y similitud de hablante superiores, gracias a los sesgos inductivos adecuados de cada módulo. Las muestras de audio están disponibles en https://mega-tts.github.io/demo-page.
English
Scaling text-to-speech to a large and wild dataset has been proven to be highly effective in achieving timbre and speech style generalization, particularly in zero-shot TTS. However, previous works usually encode speech into latent using audio codec and use autoregressive language models or diffusion models to generate it, which ignores the intrinsic nature of speech and may lead to inferior or uncontrollable results. We argue that speech can be decomposed into several attributes (e.g., content, timbre, prosody, and phase) and each of them should be modeled using a module with appropriate inductive biases. From this perspective, we carefully design a novel and large zero-shot TTS system called Mega-TTS, which is trained with large-scale wild data and models different attributes in different ways: 1) Instead of using latent encoded by audio codec as the intermediate feature, we still choose spectrogram as it separates the phase and other attributes very well. Phase can be appropriately constructed by the GAN-based vocoder and does not need to be modeled by the language model. 2) We model the timbre using global vectors since timbre is a global attribute that changes slowly over time. 3) We further use a VQGAN-based acoustic model to generate the spectrogram and a latent code language model to fit the distribution of prosody, since prosody changes quickly over time in a sentence, and language models can capture both local and long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K hours of speech and evaluate its performance on unseen speakers. Experimental results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior naturalness, robustness, and speaker similarity due to the proper inductive bias of each module. Audio samples are available at https://mega-tts.github.io/demo-page.
PDF54December 15, 2024