Mega-TTS: Síntese de Fala a partir de Texto em Escala com Viés Indutivo Intrínseco em Cenário Zero-Shot

Resumo

A escalabilidade da síntese de texto para fala (TTS) para um conjunto de dados grande e diversificado tem se mostrado altamente eficaz na generalização de timbre e estilo de fala, especialmente em TTS zero-shot. No entanto, trabalhos anteriores geralmente codificam a fala em latentes usando codecs de áudio e empregam modelos de linguagem autoregressivos ou modelos de difusão para gerá-la, o que ignora a natureza intrínseca da fala e pode resultar em inferiores ou incontroláveis. Argumentamos que a fala pode ser decomposta em vários atributos (por exemplo, conteúdo, timbre, prosódia e fase), e cada um deles deve ser modelado por um módulo com vieses indutivos apropriados. A partir dessa perspectiva, projetamos cuidadosamente um sistema inovador e amplo de TTS zero-shot chamado Mega-TTS, que é treinado com dados diversos em grande escala e modela diferentes atributos de maneiras distintas: 1) Em vez de usar latentes codificados por codecs de áudio como características intermediárias, optamos por espectrogramas, pois eles separam bem a fase dos outros atributos. A fase pode ser construída adequadamente pelo vocoder baseado em GAN e não precisa ser modelada pelo modelo de linguagem. 2) Modelamos o timbre usando vetores globais, já que o timbre é um atributo global que muda lentamente ao longo do tempo. 3) Além disso, utilizamos um modelo acústico baseado em VQGAN para gerar o espectrograma e um modelo de linguagem de código latente para ajustar a distribuição da prosódia, uma vez que a prosódia muda rapidamente ao longo de uma frase, e os modelos de linguagem podem capturar dependências locais e de longo alcance. Escalamos o Mega-TTS para conjuntos de dados multidomínio com 20 mil horas de fala e avaliamos seu desempenho em falantes não vistos. Os resultados experimentais demonstram que o Mega-TTS supera os sistemas de TTS state-of-the-art em tarefas de TTS zero-shot, edição de fala e TTS cross-lingual, com naturalidade, robustez e similaridade de falante superiores, graças ao viés indutivo adequado de cada módulo. Amostras de áudio estão disponíveis em https://mega-tts.github.io/demo-page.

English

Scaling text-to-speech to a large and wild dataset has been proven to be highly effective in achieving timbre and speech style generalization, particularly in zero-shot TTS. However, previous works usually encode speech into latent using audio codec and use autoregressive language models or diffusion models to generate it, which ignores the intrinsic nature of speech and may lead to inferior or uncontrollable results. We argue that speech can be decomposed into several attributes (e.g., content, timbre, prosody, and phase) and each of them should be modeled using a module with appropriate inductive biases. From this perspective, we carefully design a novel and large zero-shot TTS system called Mega-TTS, which is trained with large-scale wild data and models different attributes in different ways: 1) Instead of using latent encoded by audio codec as the intermediate feature, we still choose spectrogram as it separates the phase and other attributes very well. Phase can be appropriately constructed by the GAN-based vocoder and does not need to be modeled by the language model. 2) We model the timbre using global vectors since timbre is a global attribute that changes slowly over time. 3) We further use a VQGAN-based acoustic model to generate the spectrogram and a latent code language model to fit the distribution of prosody, since prosody changes quickly over time in a sentence, and language models can capture both local and long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K hours of speech and evaluate its performance on unseen speakers. Experimental results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior naturalness, robustness, and speaker similarity due to the proper inductive bias of each module. Audio samples are available at https://mega-tts.github.io/demo-page.

Mega-TTS: Síntese de Fala a partir de Texto em Escala com Viés Indutivo Intrínseco em Cenário Zero-Shot

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Resumo

Support