NaturalSpeech 3: Zero-Shot Spraaksynthese met Gefactoriseerde Codec en Diffusiemodellen
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
March 5, 2024
Auteurs: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI
Samenvatting
Hoewel recente grootschalige tekst-naar-spraak (TTS) modellen aanzienlijke vooruitgang hebben geboekt, schieten ze nog steeds tekort op het gebied van spraakkwaliteit, gelijkenis en prosodie. Gezien spraak een complex geheel is van verschillende attributen (bijv. inhoud, prosodie, timbre en akoestische details) die aanzienlijke uitdagingen vormen voor generatie, is een natuurlijk idee om spraak te ontbinden in individuele deelruimtes die verschillende attributen vertegenwoordigen en deze afzonderlijk te genereren. Gemotiveerd door dit idee, stellen we NaturalSpeech 3 voor, een TTS-systeem met nieuwe gefactoriseerde diffusiemodellen om natuurlijke spraak op een zero-shot manier te genereren. Specifiek: 1) ontwerpen we een neurale codec met gefactoriseerde vectorkwantisatie (FVQ) om het spraakgolfvorm te ontwarren in deelruimtes van inhoud, prosodie, timbre en akoestische details; 2) stellen we een gefactoriseerd diffusiemodel voor om attributen in elke deelruimte te genereren volgens het bijbehorende prompt. Met dit ontwerp kan NaturalSpeech 3 de complexe spraak effectief en efficiënt modelleren met ontwarrende deelruimtes op een verdeel-en-heers manier. Experimenten tonen aan dat NaturalSpeech 3 de state-of-the-art TTS-systemen overtreft op het gebied van kwaliteit, gelijkenis, prosodie en verstaanbaarheid. Bovendien behalen we betere prestaties door op te schalen naar 1 miljard parameters en 200.000 uur trainingsdata.
English
While recent large-scale text-to-speech (TTS) models have achieved
significant progress, they still fall short in speech quality, similarity, and
prosody. Considering speech intricately encompasses various attributes (e.g.,
content, prosody, timbre, and acoustic details) that pose significant
challenges for generation, a natural idea is to factorize speech into
individual subspaces representing different attributes and generate them
individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with
novel factorized diffusion models to generate natural speech in a zero-shot
way. Specifically, 1) we design a neural codec with factorized vector
quantization (FVQ) to disentangle speech waveform into subspaces of content,
prosody, timbre, and acoustic details; 2) we propose a factorized diffusion
model to generate attributes in each subspace following its corresponding
prompt. With this factorization design, NaturalSpeech 3 can effectively and
efficiently model the intricate speech with disentangled subspaces in a
divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the
state-of-the-art TTS systems on quality, similarity, prosody, and
intelligibility. Furthermore, we achieve better performance by scaling to 1B
parameters and 200K hours of training data.