NaturalSpeech 3: Síntese de Fala Zero-Shot com Codec Fatorizado e Modelos de Difusão
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
March 5, 2024
Autores: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI
Resumo
Embora os modelos recentes de texto-para-fala (TTS) em larga escala tenham alcançado progressos significativos, eles ainda apresentam deficiências em qualidade de fala, similaridade e prosódia. Considerando que a fala abrange intricadamente diversos atributos (por exemplo, conteúdo, prosódia, timbre e detalhes acústicos) que representam desafios significativos para a geração, uma ideia natural é fatorar a fala em subespaços individuais que representam diferentes atributos e gerá-los separadamente. Motivados por isso, propomos o NaturalSpeech 3, um sistema TTS com novos modelos de difusão fatorados para gerar fala natural de forma zero-shot. Especificamente, 1) projetamos um codec neural com quantização vetorial fatorada (FVQ) para desacoplar a forma de onda da fala em subespaços de conteúdo, prosódia, timbre e detalhes acústicos; 2) propomos um modelo de difusão fatorado para gerar atributos em cada subespaço seguindo seu prompt correspondente. Com esse design de fatoração, o NaturalSpeech 3 pode modelar de forma eficaz e eficiente a fala complexa com subespaços desacoplados, utilizando uma abordagem de dividir para conquistar. Experimentos mostram que o NaturalSpeech 3 supera os sistemas TTS state-of-the-art em qualidade, similaridade, prosódia e inteligibilidade. Além disso, alcançamos um desempenho ainda melhor ao escalar para 1 bilhão de parâmetros e 200 mil horas de dados de treinamento.
English
While recent large-scale text-to-speech (TTS) models have achieved
significant progress, they still fall short in speech quality, similarity, and
prosody. Considering speech intricately encompasses various attributes (e.g.,
content, prosody, timbre, and acoustic details) that pose significant
challenges for generation, a natural idea is to factorize speech into
individual subspaces representing different attributes and generate them
individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with
novel factorized diffusion models to generate natural speech in a zero-shot
way. Specifically, 1) we design a neural codec with factorized vector
quantization (FVQ) to disentangle speech waveform into subspaces of content,
prosody, timbre, and acoustic details; 2) we propose a factorized diffusion
model to generate attributes in each subspace following its corresponding
prompt. With this factorization design, NaturalSpeech 3 can effectively and
efficiently model the intricate speech with disentangled subspaces in a
divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the
state-of-the-art TTS systems on quality, similarity, prosody, and
intelligibility. Furthermore, we achieve better performance by scaling to 1B
parameters and 200K hours of training data.