CoMoSpeech: Синтез речи и вокальных данных за один шаг с использованием модели согласованности
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
May 11, 2023
Авторы: Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
cs.AI
Аннотация
Денойзинговые диффузионные вероятностные модели (DDPM) продемонстрировали перспективные результаты в синтезе речи. Однако для достижения высокого качества образцов требуется большое количество итеративных шагов, что ограничивает скорость вывода. Сохранение качества образцов при увеличении скорости выборки стало сложной задачей. В данной статье мы предлагаем метод синтеза речи на основе "Co"nsistency "Mo"del, CoMoSpeech, который позволяет синтезировать речь за один шаг диффузионной выборки, сохраняя при этом высокое качество звука. Ограничение согласованности применяется для дистилляции модели согласованности из хорошо разработанной диффузионной модели-учителя, что в конечном итоге обеспечивает превосходные результаты в дистиллированном CoMoSpeech. Наши эксперименты показывают, что при генерации аудиозаписей за один шаг выборки CoMoSpeech достигает скорости вывода более чем в 150 раз быстрее реального времени на одном GPU NVIDIA A100, что сопоставимо с FastSpeech2, делая синтез речи на основе диффузионной выборки действительно практичным. В то же время объективные и субъективные оценки синтеза речи и пения показывают, что предложенные модели-учители обеспечивают наилучшее качество звука, а CoMoSpeech с одношаговой выборкой достигает наилучшей скорости вывода с качеством звука, которое лучше или сопоставимо с другими традиционными многошаговыми диффузионными моделями. Аудиообразцы доступны по адресу https://comospeech.github.io/.
English
Denoising diffusion probabilistic models (DDPMs) have shown promising
performance for speech synthesis. However, a large number of iterative steps
are required to achieve high sample quality, which restricts the inference
speed. Maintaining sample quality while increasing sampling speed has become a
challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based
"Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a
single diffusion sampling step while achieving high audio quality. The
consistency constraint is applied to distill a consistency model from a
well-designed diffusion-based teacher model, which ultimately yields superior
performances in the distilled CoMoSpeech. Our experiments show that by
generating audio recordings by a single sampling step, the CoMoSpeech achieves
an inference speed more than 150 times faster than real-time on a single NVIDIA
A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based
speech synthesis truly practical. Meanwhile, objective and subjective
evaluations on text-to-speech and singing voice synthesis show that the
proposed teacher models yield the best audio quality, and the one-step sampling
based CoMoSpeech achieves the best inference speed with better or comparable
audio quality to other conventional multi-step diffusion model baselines. Audio
samples are available at https://comospeech.github.io/.