CoMoSpeech: Einstufige Sprach- und Gesangssynthese mittels Konsistenzmodell
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
May 11, 2023
Autoren: Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
cs.AI
Zusammenfassung
Denoising Diffusion Probabilistic Models (DDPMs) haben vielversprechende Leistungen in der Sprachsynthese gezeigt. Allerdings ist eine große Anzahl von iterativen Schritten erforderlich, um eine hohe Probenqualität zu erreichen, was die Inferenzgeschwindigkeit einschränkt. Die Beibehaltung der Probenqualität bei gleichzeitiger Erhöhung der Abtastgeschwindigkeit ist zu einer anspruchsvollen Aufgabe geworden. In diesem Artikel schlagen wir eine „Co“nsistency „Mo“del-basierte „Speech“-Synthese-Methode vor, CoMoSpeech, die die Sprachsynthese in einem einzigen Diffusions-Abtastschritt erreicht und dabei eine hohe Audioqualität erzielt. Die Konsistenzbedingung wird angewendet, um ein Konsistenzmodell aus einem gut konzipierten, diffusionsbasierten Lehrermodell zu destillieren, was letztendlich überragende Leistungen im destillierten CoMoSpeech liefert. Unsere Experimente zeigen, dass CoMoSpeech durch die Erzeugung von Audioaufnahmen in einem einzigen Abtastschritt eine Inferenzgeschwindigkeit erreicht, die mehr als 150-mal schneller als Echtzeit auf einer einzelnen NVIDIA A100 GPU ist, was mit FastSpeech2 vergleichbar ist und die diffusionsbasierte Sprachsynthese wirklich praktikabel macht. Gleichzeitig zeigen objektive und subjektive Bewertungen bei der Text-zu-Sprache- und Gesangssynthese, dass die vorgeschlagenen Lehrermodelle die beste Audioqualität liefern und das auf einem einzigen Abtastschritt basierende CoMoSpeech die beste Inferenzgeschwindigkeit mit besserer oder vergleichbarer Audioqualität zu anderen konventionellen, mehrstufigen Diffusionsmodell-Baselines erreicht. Audio-Beispiele sind unter https://comospeech.github.io/ verfügbar.
English
Denoising diffusion probabilistic models (DDPMs) have shown promising
performance for speech synthesis. However, a large number of iterative steps
are required to achieve high sample quality, which restricts the inference
speed. Maintaining sample quality while increasing sampling speed has become a
challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based
"Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a
single diffusion sampling step while achieving high audio quality. The
consistency constraint is applied to distill a consistency model from a
well-designed diffusion-based teacher model, which ultimately yields superior
performances in the distilled CoMoSpeech. Our experiments show that by
generating audio recordings by a single sampling step, the CoMoSpeech achieves
an inference speed more than 150 times faster than real-time on a single NVIDIA
A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based
speech synthesis truly practical. Meanwhile, objective and subjective
evaluations on text-to-speech and singing voice synthesis show that the
proposed teacher models yield the best audio quality, and the one-step sampling
based CoMoSpeech achieves the best inference speed with better or comparable
audio quality to other conventional multi-step diffusion model baselines. Audio
samples are available at https://comospeech.github.io/.