CoMoSpeech : Synthèse vocale et chant en une étape via un modèle de cohérence
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
May 11, 2023
Auteurs: Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
cs.AI
Résumé
Les modèles probabilistes de diffusion avec débruitage (DDPM) ont démontré des performances prometteuses pour la synthèse vocale. Cependant, un grand nombre d'étapes itératives sont nécessaires pour atteindre une qualité d'échantillon élevée, ce qui limite la vitesse d'inférence. Maintenir la qualité des échantillons tout en augmentant la vitesse d'échantillonnage est devenu une tâche complexe. Dans cet article, nous proposons une méthode de synthèse vocale basée sur un modèle de "Co"hérence "Mo"dèle, appelée CoMoSpeech, qui réalise la synthèse vocale en une seule étape de diffusion tout en atteignant une qualité audio élevée. La contrainte de cohérence est appliquée pour distiller un modèle de cohérence à partir d'un modèle enseignant basé sur la diffusion bien conçu, ce qui aboutit à des performances supérieures dans le CoMoSpeech distillé. Nos expériences montrent qu'en générant des enregistrements audio en une seule étape d'échantillonnage, le CoMoSpeech atteint une vitesse d'inférence plus de 150 fois supérieure au temps réel sur une seule GPU NVIDIA A100, ce qui est comparable à FastSpeech2, rendant ainsi la synthèse vocale basée sur la diffusion véritablement pratique. Par ailleurs, les évaluations objectives et subjectives sur la synthèse vocale et la synthèse de voix chantée montrent que les modèles enseignants proposés produisent la meilleure qualité audio, et que le CoMoSpeech basé sur l'échantillonnage en une étape atteint la meilleure vitesse d'inférence avec une qualité audio égale ou supérieure à celle des autres modèles de diffusion multi-étapes conventionnels. Des échantillons audio sont disponibles à l'adresse https://comospeech.github.io/.
English
Denoising diffusion probabilistic models (DDPMs) have shown promising
performance for speech synthesis. However, a large number of iterative steps
are required to achieve high sample quality, which restricts the inference
speed. Maintaining sample quality while increasing sampling speed has become a
challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based
"Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a
single diffusion sampling step while achieving high audio quality. The
consistency constraint is applied to distill a consistency model from a
well-designed diffusion-based teacher model, which ultimately yields superior
performances in the distilled CoMoSpeech. Our experiments show that by
generating audio recordings by a single sampling step, the CoMoSpeech achieves
an inference speed more than 150 times faster than real-time on a single NVIDIA
A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based
speech synthesis truly practical. Meanwhile, objective and subjective
evaluations on text-to-speech and singing voice synthesis show that the
proposed teacher models yield the best audio quality, and the one-step sampling
based CoMoSpeech achieves the best inference speed with better or comparable
audio quality to other conventional multi-step diffusion model baselines. Audio
samples are available at https://comospeech.github.io/.