Естественная речь 3: Синтез речи с нулевым обучением на примерах с факторизованным кодеком и моделями диффузииNaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and
Diffusion Models
Несмотря на значительные успехи современных моделей текст в речь (TTS) большого масштаба, они все еще уступают по качеству речи, сходству и просодии. Учитывая, что речь сложно включает в себя различные атрибуты (например, содержание, просодию, тембр и акустические детали), представляющие существенные вызовы для генерации, естественной идеей является факторизация речи на индивидуальные подпространства, представляющие различные атрибуты и их последующая генерация. Вдохновленные этим, мы предлагаем NaturalSpeech 3, систему TTS с новыми факторизованными моделями диффузии для генерации естественной речи в режиме zero-shot. Конкретно, 1) мы разрабатываем нейрокодек с факторизованной векторной квантизацией (FVQ) для разделения речевой волны на подпространства содержания, просодии, тембра и акустических деталей; 2) мы предлагаем факторизованную модель диффузии для генерации атрибутов в каждом подпространстве в соответствии с соответствующим запросом. Благодаря этому факторизованному дизайну, NaturalSpeech 3 может эффективно и эффективно моделировать сложную речь с разделенными подпространствами в режиме "разделяй и властвуй". Эксперименты показывают, что NaturalSpeech 3 превосходит современные системы TTS по качеству, сходству, просодии и понимаемости. Более того, мы достигаем лучшей производительности, масштабируясь до 1 миллиарда параметров и 200 тыс. часов обучающих данных.