NaturalSpeech 3: Sintesi Vocale Zero-Shot con Modelli di Codec Fattorizzati e Diffusione
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
March 5, 2024
Autori: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI
Abstract
Sebbene i recenti modelli su larga scala di sintesi vocale da testo (TTS) abbiano compiuto progressi significativi, continuano a mostrare carenze in termini di qualità del parlato, somiglianza e prosodia. Considerando che il parlato comprende in modo intricato vari attributi (ad esempio, contenuto, prosodia, timbro e dettagli acustici) che rappresentano sfide significative per la generazione, un'idea naturale è quella di scomporre il parlato in sottospazi individuali che rappresentano diversi attributi e generarli separatamente. Motivati da ciò, proponiamo NaturalSpeech 3, un sistema TTS con nuovi modelli di diffusione fattorizzati per generare parlato naturale in modo zero-shot. Nello specifico, 1) progettiamo un codec neurale con quantizzazione vettoriale fattorizzata (FVQ) per separare la forma d'onda del parlato in sottospazi di contenuto, prosodia, timbro e dettagli acustici; 2) proponiamo un modello di diffusione fattorizzato per generare gli attributi in ciascun sottospazio seguendo il prompt corrispondente. Con questo design di fattorizzazione, NaturalSpeech 3 può modellare in modo efficace ed efficiente il parlato complesso con sottospazi separati, seguendo un approccio divide et impera. Gli esperimenti dimostrano che NaturalSpeech 3 supera i sistemi TTS all'avanguardia in termini di qualità, somiglianza, prosodia e intelligibilità. Inoltre, otteniamo prestazioni migliori scalando a 1 miliardo di parametri e 200.000 ore di dati di addestramento.
English
While recent large-scale text-to-speech (TTS) models have achieved
significant progress, they still fall short in speech quality, similarity, and
prosody. Considering speech intricately encompasses various attributes (e.g.,
content, prosody, timbre, and acoustic details) that pose significant
challenges for generation, a natural idea is to factorize speech into
individual subspaces representing different attributes and generate them
individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with
novel factorized diffusion models to generate natural speech in a zero-shot
way. Specifically, 1) we design a neural codec with factorized vector
quantization (FVQ) to disentangle speech waveform into subspaces of content,
prosody, timbre, and acoustic details; 2) we propose a factorized diffusion
model to generate attributes in each subspace following its corresponding
prompt. With this factorization design, NaturalSpeech 3 can effectively and
efficiently model the intricate speech with disentangled subspaces in a
divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the
state-of-the-art TTS systems on quality, similarity, prosody, and
intelligibility. Furthermore, we achieve better performance by scaling to 1B
parameters and 200K hours of training data.