FlashSpeech: Efficiënte Zero-Shot Spraaksynthese
FlashSpeech: Efficient Zero-Shot Speech Synthesis
April 23, 2024
Auteurs: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI
Samenvatting
Recente vooruitgang in grootschalige zero-shot spraaksynthese is aanzienlijk
bevorderd door taalmodellen en diffusiemodellen. Het generatieproces van beide
methoden is echter traag en rekenintensief. Efficiënte spraaksynthese met een
lager rekenbudget om kwaliteit te bereiken die vergelijkbaar is met eerder werk,
blijft een grote uitdaging. In dit artikel presenteren we FlashSpeech, een
grootschalig zero-shot spraaksynthesesysteem met ongeveer 5% van de inferentietijd
in vergelijking met eerder werk. FlashSpeech is gebouwd op het latent consistency
model en past een nieuwe adversarial consistency training-aanpak toe die vanaf
nul kan worden getraind zonder dat een vooraf getraind diffusiemodel als leraar
nodig is. Bovendien verbetert een nieuwe prosodiegeneratormodule de diversiteit
van prosodie, waardoor het ritme van de spraak natuurlijker klinkt. De
generatieprocessen van FlashSpeech kunnen efficiënt worden uitgevoerd met één of
twee samplingstappen, terwijl een hoge audiokwaliteit en een hoge gelijkenis met
de audioprompt voor zero-shot spraakgeneratie behouden blijven. Onze
experimentele resultaten tonen de superieure prestaties van FlashSpeech aan.
Opmerkelijk is dat FlashSpeech ongeveer 20 keer sneller kan zijn dan andere
zero-shot spraaksynthesesystemen, terwijl vergelijkbare prestaties worden
gehandhaafd wat betreft stemkwaliteit en gelijkenis. Bovendien toont FlashSpeech
zijn veelzijdigheid door efficiënt taken uit te voeren zoals stemconversie,
spraakbewerking en diverse spraaksampling. Audiovoorbeelden zijn te vinden op
https://flashspeech.github.io/.
English
Recent progress in large-scale zero-shot speech synthesis has been
significantly advanced by language models and diffusion models. However, the
generation process of both methods is slow and computationally intensive.
Efficient speech synthesis using a lower computing budget to achieve quality on
par with previous work remains a significant challenge. In this paper, we
present FlashSpeech, a large-scale zero-shot speech synthesis system with
approximately 5\% of the inference time compared with previous work.
FlashSpeech is built on the latent consistency model and applies a novel
adversarial consistency training approach that can train from scratch without
the need for a pre-trained diffusion model as the teacher. Furthermore, a new
prosody generator module enhances the diversity of prosody, making the rhythm
of the speech sound more natural. The generation processes of FlashSpeech can
be achieved efficiently with one or two sampling steps while maintaining high
audio quality and high similarity to the audio prompt for zero-shot speech
generation. Our experimental results demonstrate the superior performance of
FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other
zero-shot speech synthesis systems while maintaining comparable performance in
terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates
its versatility by efficiently performing tasks like voice conversion, speech
editing, and diverse speech sampling. Audio samples can be found in
https://flashspeech.github.io/.