NaturalSpeech 3: Síntesis de Voz Zero-Shot con Codec Factorizado y Modelos de Difusión
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
March 5, 2024
Autores: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI
Resumen
Si bien los modelos recientes de texto a voz (TTS) a gran escala han logrado avances significativos, aún presentan deficiencias en la calidad del habla, la similitud y la prosodia. Dado que el habla abarca intrincadamente diversos atributos (por ejemplo, contenido, prosodia, timbre y detalles acústicos) que plantean desafíos importantes para la generación, una idea natural es factorizar el habla en subespacios individuales que representen diferentes atributos y generarlos de manera individual. Motivados por esto, proponemos NaturalSpeech 3, un sistema TTS con modelos de difusión factorizados novedosos para generar habla natural de manera zero-shot. Específicamente, 1) diseñamos un códec neuronal con cuantización vectorial factorizada (FVQ) para desentrelazar la forma de onda del habla en subespacios de contenido, prosodia, timbre y detalles acústicos; 2) proponemos un modelo de difusión factorizado para generar atributos en cada subespacio siguiendo su prompt correspondiente. Con este diseño de factorización, NaturalSpeech 3 puede modelar de manera efectiva y eficiente el habla intrincada con subespacios desentrelazados en un enfoque de divide y vencerás. Los experimentos muestran que NaturalSpeech 3 supera a los sistemas TTS más avanzados en calidad, similitud, prosodia e inteligibilidad. Además, logramos un mejor rendimiento al escalar a 1B de parámetros y 200K horas de datos de entrenamiento.
English
While recent large-scale text-to-speech (TTS) models have achieved
significant progress, they still fall short in speech quality, similarity, and
prosody. Considering speech intricately encompasses various attributes (e.g.,
content, prosody, timbre, and acoustic details) that pose significant
challenges for generation, a natural idea is to factorize speech into
individual subspaces representing different attributes and generate them
individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with
novel factorized diffusion models to generate natural speech in a zero-shot
way. Specifically, 1) we design a neural codec with factorized vector
quantization (FVQ) to disentangle speech waveform into subspaces of content,
prosody, timbre, and acoustic details; 2) we propose a factorized diffusion
model to generate attributes in each subspace following its corresponding
prompt. With this factorization design, NaturalSpeech 3 can effectively and
efficiently model the intricate speech with disentangled subspaces in a
divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the
state-of-the-art TTS systems on quality, similarity, prosody, and
intelligibility. Furthermore, we achieve better performance by scaling to 1B
parameters and 200K hours of training data.Summary
AI-Generated Summary