CoMoSpeech: Síntese de Voz e Canto em Um Passo via Modelo de Consistência
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
May 11, 2023
Autores: Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
cs.AI
Resumo
Modelos probabilísticos de difusão com redução de ruído (DDPMs) têm demonstrado desempenho promissor para síntese de fala. No entanto, um grande número de passos iterativos é necessário para alcançar alta qualidade de amostra, o que restringe a velocidade de inferência. Manter a qualidade da amostra enquanto aumenta a velocidade de amostragem tornou-se uma tarefa desafiadora. Neste artigo, propomos um método de síntese de fala baseado em "Co"nsistência "Mo"del, denominado CoMoSpeech, que realiza a síntese de fala em um único passo de amostragem por difusão, ao mesmo tempo que alcança alta qualidade de áudio. A restrição de consistência é aplicada para destilar um modelo de consistência a partir de um modelo professor baseado em difusão bem projetado, o que, por fim, resulta em desempenhos superiores no CoMoSpeech destilado. Nossos experimentos mostram que, ao gerar gravações de áudio em um único passo de amostragem, o CoMoSpeech alcança uma velocidade de inferência mais de 150 vezes mais rápida que o tempo real em uma única GPU NVIDIA A100, o que é comparável ao FastSpeech2, tornando a síntese de fala baseada em amostragem por difusão verdadeiramente prática. Enquanto isso, avaliações objetivas e subjetivas em síntese de texto para fala e síntese de voz cantada mostram que os modelos professores propostos produzem a melhor qualidade de áudio, e o CoMoSpeech baseado em amostragem de um único passo alcança a melhor velocidade de inferência com qualidade de áudio melhor ou comparável a outras linhas de base convencionais de modelos de difusão com múltiplos passos. Amostras de áudio estão disponíveis em https://comospeech.github.io/.
English
Denoising diffusion probabilistic models (DDPMs) have shown promising
performance for speech synthesis. However, a large number of iterative steps
are required to achieve high sample quality, which restricts the inference
speed. Maintaining sample quality while increasing sampling speed has become a
challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based
"Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a
single diffusion sampling step while achieving high audio quality. The
consistency constraint is applied to distill a consistency model from a
well-designed diffusion-based teacher model, which ultimately yields superior
performances in the distilled CoMoSpeech. Our experiments show that by
generating audio recordings by a single sampling step, the CoMoSpeech achieves
an inference speed more than 150 times faster than real-time on a single NVIDIA
A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based
speech synthesis truly practical. Meanwhile, objective and subjective
evaluations on text-to-speech and singing voice synthesis show that the
proposed teacher models yield the best audio quality, and the one-step sampling
based CoMoSpeech achieves the best inference speed with better or comparable
audio quality to other conventional multi-step diffusion model baselines. Audio
samples are available at https://comospeech.github.io/.