CoMoSpeech: Sintesi Vocale e Canora in Un Passo Tramite Modelli di Consistenza

Abstract

I modelli probabilistici di diffusione con denoising (DDPM) hanno dimostrato prestazioni promettenti per la sintesi vocale. Tuttavia, è necessario un numero elevato di passi iterativi per ottenere una qualità campionaria elevata, il che limita la velocità di inferenza. Mantenere la qualità del campione aumentando la velocità di campionamento è diventato un compito impegnativo. In questo articolo, proponiamo un metodo di sintesi vocale basato su un "Co"nsistency "Mo"del, denominato CoMoSpeech, che realizza la sintesi vocale attraverso un singolo passo di campionamento di diffusione, ottenendo al contempo un'elevata qualità audio. Il vincolo di consistenza viene applicato per distillare un modello di consistenza da un modello insegnante basato su diffusione ben progettato, che alla fine produce prestazioni superiori nel CoMoSpeech distillato. I nostri esperimenti dimostrano che, generando registrazioni audio con un singolo passo di campionamento, il CoMoSpeech raggiunge una velocità di inferenza più di 150 volte superiore al tempo reale su una singola GPU NVIDIA A100, paragonabile a FastSpeech2, rendendo la sintesi vocale basata su campionamento di diffusione veramente pratica. Nel frattempo, valutazioni oggettive e soggettive sulla sintesi vocale da testo e sulla sintesi della voce cantata mostrano che i modelli insegnanti proposti producono la migliore qualità audio, e il CoMoSpeech basato su campionamento in un singolo passo raggiunge la migliore velocità di inferenza con una qualità audio migliore o comparabile rispetto ad altri modelli di diffusione multi-passo convenzionali. Campioni audio sono disponibili all'indirizzo https://comospeech.github.io/.

English

Denoising diffusion probabilistic models (DDPMs) have shown promising performance for speech synthesis. However, a large number of iterative steps are required to achieve high sample quality, which restricts the inference speed. Maintaining sample quality while increasing sampling speed has become a challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based "Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a single diffusion sampling step while achieving high audio quality. The consistency constraint is applied to distill a consistency model from a well-designed diffusion-based teacher model, which ultimately yields superior performances in the distilled CoMoSpeech. Our experiments show that by generating audio recordings by a single sampling step, the CoMoSpeech achieves an inference speed more than 150 times faster than real-time on a single NVIDIA A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based speech synthesis truly practical. Meanwhile, objective and subjective evaluations on text-to-speech and singing voice synthesis show that the proposed teacher models yield the best audio quality, and the one-step sampling based CoMoSpeech achieves the best inference speed with better or comparable audio quality to other conventional multi-step diffusion model baselines. Audio samples are available at https://comospeech.github.io/.

CoMoSpeech: Sintesi Vocale e Canora in Un Passo Tramite Modelli di Consistenza

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

Abstract

Support