CoMoSpeech: Sintesi Vocale e Canora in Un Passo Tramite Modelli di Consistenza
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
May 11, 2023
Autori: Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
cs.AI
Abstract
I modelli probabilistici di diffusione con denoising (DDPM) hanno dimostrato prestazioni promettenti per la sintesi vocale. Tuttavia, è necessario un numero elevato di passi iterativi per ottenere una qualità campionaria elevata, il che limita la velocità di inferenza. Mantenere la qualità del campione aumentando la velocità di campionamento è diventato un compito impegnativo. In questo articolo, proponiamo un metodo di sintesi vocale basato su un "Co"nsistency "Mo"del, denominato CoMoSpeech, che realizza la sintesi vocale attraverso un singolo passo di campionamento di diffusione, ottenendo al contempo un'elevata qualità audio. Il vincolo di consistenza viene applicato per distillare un modello di consistenza da un modello insegnante basato su diffusione ben progettato, che alla fine produce prestazioni superiori nel CoMoSpeech distillato. I nostri esperimenti dimostrano che, generando registrazioni audio con un singolo passo di campionamento, il CoMoSpeech raggiunge una velocità di inferenza più di 150 volte superiore al tempo reale su una singola GPU NVIDIA A100, paragonabile a FastSpeech2, rendendo la sintesi vocale basata su campionamento di diffusione veramente pratica. Nel frattempo, valutazioni oggettive e soggettive sulla sintesi vocale da testo e sulla sintesi della voce cantata mostrano che i modelli insegnanti proposti producono la migliore qualità audio, e il CoMoSpeech basato su campionamento in un singolo passo raggiunge la migliore velocità di inferenza con una qualità audio migliore o comparabile rispetto ad altri modelli di diffusione multi-passo convenzionali. Campioni audio sono disponibili all'indirizzo https://comospeech.github.io/.
English
Denoising diffusion probabilistic models (DDPMs) have shown promising
performance for speech synthesis. However, a large number of iterative steps
are required to achieve high sample quality, which restricts the inference
speed. Maintaining sample quality while increasing sampling speed has become a
challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based
"Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a
single diffusion sampling step while achieving high audio quality. The
consistency constraint is applied to distill a consistency model from a
well-designed diffusion-based teacher model, which ultimately yields superior
performances in the distilled CoMoSpeech. Our experiments show that by
generating audio recordings by a single sampling step, the CoMoSpeech achieves
an inference speed more than 150 times faster than real-time on a single NVIDIA
A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based
speech synthesis truly practical. Meanwhile, objective and subjective
evaluations on text-to-speech and singing voice synthesis show that the
proposed teacher models yield the best audio quality, and the one-step sampling
based CoMoSpeech achieves the best inference speed with better or comparable
audio quality to other conventional multi-step diffusion model baselines. Audio
samples are available at https://comospeech.github.io/.