CoMoSpeech: Eénstaps spraak- en zangstem synthese via consistentiemodel
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
May 11, 2023
Auteurs: Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
cs.AI
Samenvatting
Denoising diffusion probabilistische modellen (DDPM's) hebben veelbelovende prestaties getoond voor spraaksynthese. Er zijn echter een groot aantal iteratieve stappen nodig om een hoge samplekwaliteit te bereiken, wat de inferentiesnelheid beperkt. Het behouden van de samplekwaliteit terwijl de sample-snelheid wordt verhoogd, is een uitdagende taak geworden. In dit artikel stellen we een "Co"nsistency "Mo"del-gebaseerde "Speech" synthese methode voor, CoMoSpeech, die spraaksynthese realiseert via een enkele diffusie-sample stap terwijl een hoge audiokwaliteit wordt bereikt. De consistentiebeperking wordt toegepast om een consistentiemodel te destilleren uit een goed ontworpen diffusie-gebaseerd leraarmodel, wat uiteindelijk superieure prestaties oplevert in het gedistilleerde CoMoSpeech. Onze experimenten tonen aan dat door het genereren van audio-opnames via een enkele sample stap, CoMoSpeech een inferentiesnelheid bereikt die meer dan 150 keer sneller is dan real-time op een enkele NVIDIA A100 GPU, wat vergelijkbaar is met FastSpeech2, waardoor diffusie-sample gebaseerde spraaksynthese echt praktisch wordt. Tegelijkertijd tonen objectieve en subjectieve evaluaties van tekst-naar-spraak en zangstem-synthese aan dat de voorgestelde leraarmodellen de beste audiokwaliteit opleveren, en dat de op één stap gebaseerde CoMoSpeech de beste inferentiesnelheid bereikt met een betere of vergelijkbare audiokwaliteit ten opzichte van andere conventionele multi-stap diffusie-model referenties. Audio samples zijn beschikbaar op https://comospeech.github.io/.
English
Denoising diffusion probabilistic models (DDPMs) have shown promising
performance for speech synthesis. However, a large number of iterative steps
are required to achieve high sample quality, which restricts the inference
speed. Maintaining sample quality while increasing sampling speed has become a
challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based
"Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a
single diffusion sampling step while achieving high audio quality. The
consistency constraint is applied to distill a consistency model from a
well-designed diffusion-based teacher model, which ultimately yields superior
performances in the distilled CoMoSpeech. Our experiments show that by
generating audio recordings by a single sampling step, the CoMoSpeech achieves
an inference speed more than 150 times faster than real-time on a single NVIDIA
A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based
speech synthesis truly practical. Meanwhile, objective and subjective
evaluations on text-to-speech and singing voice synthesis show that the
proposed teacher models yield the best audio quality, and the one-step sampling
based CoMoSpeech achieves the best inference speed with better or comparable
audio quality to other conventional multi-step diffusion model baselines. Audio
samples are available at https://comospeech.github.io/.