Естественная речь 3: Синтез речи с нулевым обучением на примерах с факторизованным кодеком и моделями диффузии
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
March 5, 2024
Авторы: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI
Аннотация
Несмотря на значительные успехи современных моделей текст в речь (TTS) большого масштаба, они все еще уступают по качеству речи, сходству и просодии. Учитывая, что речь сложно включает в себя различные атрибуты (например, содержание, просодию, тембр и акустические детали), представляющие существенные вызовы для генерации, естественной идеей является факторизация речи на индивидуальные подпространства, представляющие различные атрибуты и их последующая генерация. Вдохновленные этим, мы предлагаем NaturalSpeech 3, систему TTS с новыми факторизованными моделями диффузии для генерации естественной речи в режиме zero-shot. Конкретно, 1) мы разрабатываем нейрокодек с факторизованной векторной квантизацией (FVQ) для разделения речевой волны на подпространства содержания, просодии, тембра и акустических деталей; 2) мы предлагаем факторизованную модель диффузии для генерации атрибутов в каждом подпространстве в соответствии с соответствующим запросом. Благодаря этому факторизованному дизайну, NaturalSpeech 3 может эффективно и эффективно моделировать сложную речь с разделенными подпространствами в режиме "разделяй и властвуй". Эксперименты показывают, что NaturalSpeech 3 превосходит современные системы TTS по качеству, сходству, просодии и понимаемости. Более того, мы достигаем лучшей производительности, масштабируясь до 1 миллиарда параметров и 200 тыс. часов обучающих данных.
English
While recent large-scale text-to-speech (TTS) models have achieved
significant progress, they still fall short in speech quality, similarity, and
prosody. Considering speech intricately encompasses various attributes (e.g.,
content, prosody, timbre, and acoustic details) that pose significant
challenges for generation, a natural idea is to factorize speech into
individual subspaces representing different attributes and generate them
individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with
novel factorized diffusion models to generate natural speech in a zero-shot
way. Specifically, 1) we design a neural codec with factorized vector
quantization (FVQ) to disentangle speech waveform into subspaces of content,
prosody, timbre, and acoustic details; 2) we propose a factorized diffusion
model to generate attributes in each subspace following its corresponding
prompt. With this factorization design, NaturalSpeech 3 can effectively and
efficiently model the intricate speech with disentangled subspaces in a
divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the
state-of-the-art TTS systems on quality, similarity, prosody, and
intelligibility. Furthermore, we achieve better performance by scaling to 1B
parameters and 200K hours of training data.Summary
AI-Generated Summary