CoMoSpeech: Síntesis de voz hablada y cantada en un solo paso mediante modelos de consistencia
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
May 11, 2023
Autores: Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
cs.AI
Resumen
Los modelos probabilísticos de difusión para eliminación de ruido (DDPMs, por sus siglas en inglés) han demostrado un rendimiento prometedor en la síntesis de voz. Sin embargo, se requiere un gran número de pasos iterativos para lograr una calidad de muestreo alta, lo que limita la velocidad de inferencia. Mantener la calidad de las muestras mientras se aumenta la velocidad de muestreo se ha convertido en una tarea desafiante. En este artículo, proponemos un método de síntesis de voz basado en un "Mo"delo de "Co"nsistencia, denominado CoMoSpeech, que realiza la síntesis de voz en un solo paso de muestreo de difusión mientras logra una alta calidad de audio. La restricción de consistencia se aplica para destilar un modelo de consistencia a partir de un modelo maestro basado en difusión bien diseñado, lo que finalmente produce un rendimiento superior en el CoMoSpeech destilado. Nuestros experimentos muestran que, al generar grabaciones de audio en un solo paso de muestreo, el CoMoSpeech alcanza una velocidad de inferencia más de 150 veces más rápida que el tiempo real en una sola GPU NVIDIA A100, lo que es comparable a FastSpeech2, haciendo que la síntesis de voz basada en muestreo de difusión sea verdaderamente práctica. Mientras tanto, las evaluaciones objetivas y subjetivas en la síntesis de texto a voz y voz cantada muestran que los modelos maestros propuestos producen la mejor calidad de audio, y el CoMoSpeech basado en muestreo de un solo paso logra la mejor velocidad de inferencia con una calidad de audio igual o superior a otros modelos de difusión convencionales de múltiples pasos. Las muestras de audio están disponibles en https://comospeech.github.io/.
English
Denoising diffusion probabilistic models (DDPMs) have shown promising
performance for speech synthesis. However, a large number of iterative steps
are required to achieve high sample quality, which restricts the inference
speed. Maintaining sample quality while increasing sampling speed has become a
challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based
"Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a
single diffusion sampling step while achieving high audio quality. The
consistency constraint is applied to distill a consistency model from a
well-designed diffusion-based teacher model, which ultimately yields superior
performances in the distilled CoMoSpeech. Our experiments show that by
generating audio recordings by a single sampling step, the CoMoSpeech achieves
an inference speed more than 150 times faster than real-time on a single NVIDIA
A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based
speech synthesis truly practical. Meanwhile, objective and subjective
evaluations on text-to-speech and singing voice synthesis show that the
proposed teacher models yield the best audio quality, and the one-step sampling
based CoMoSpeech achieves the best inference speed with better or comparable
audio quality to other conventional multi-step diffusion model baselines. Audio
samples are available at https://comospeech.github.io/.