ChatPaper.aiChatPaper

FlashSpeech: Efficiënte Zero-Shot Spraaksynthese

FlashSpeech: Efficient Zero-Shot Speech Synthesis

April 23, 2024
Auteurs: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI

Samenvatting

Recente vooruitgang in grootschalige zero-shot spraaksynthese is aanzienlijk bevorderd door taalmodellen en diffusiemodellen. Het generatieproces van beide methoden is echter traag en rekenintensief. Efficiënte spraaksynthese met een lager rekenbudget om kwaliteit te bereiken die vergelijkbaar is met eerder werk, blijft een grote uitdaging. In dit artikel presenteren we FlashSpeech, een grootschalig zero-shot spraaksynthesesysteem met ongeveer 5% van de inferentietijd in vergelijking met eerder werk. FlashSpeech is gebouwd op het latent consistency model en past een nieuwe adversarial consistency training-aanpak toe die vanaf nul kan worden getraind zonder dat een vooraf getraind diffusiemodel als leraar nodig is. Bovendien verbetert een nieuwe prosodiegeneratormodule de diversiteit van prosodie, waardoor het ritme van de spraak natuurlijker klinkt. De generatieprocessen van FlashSpeech kunnen efficiënt worden uitgevoerd met één of twee samplingstappen, terwijl een hoge audiokwaliteit en een hoge gelijkenis met de audioprompt voor zero-shot spraakgeneratie behouden blijven. Onze experimentele resultaten tonen de superieure prestaties van FlashSpeech aan. Opmerkelijk is dat FlashSpeech ongeveer 20 keer sneller kan zijn dan andere zero-shot spraaksynthesesystemen, terwijl vergelijkbare prestaties worden gehandhaafd wat betreft stemkwaliteit en gelijkenis. Bovendien toont FlashSpeech zijn veelzijdigheid door efficiënt taken uit te voeren zoals stemconversie, spraakbewerking en diverse spraaksampling. Audiovoorbeelden zijn te vinden op https://flashspeech.github.io/.
English
Recent progress in large-scale zero-shot speech synthesis has been significantly advanced by language models and diffusion models. However, the generation process of both methods is slow and computationally intensive. Efficient speech synthesis using a lower computing budget to achieve quality on par with previous work remains a significant challenge. In this paper, we present FlashSpeech, a large-scale zero-shot speech synthesis system with approximately 5\% of the inference time compared with previous work. FlashSpeech is built on the latent consistency model and applies a novel adversarial consistency training approach that can train from scratch without the need for a pre-trained diffusion model as the teacher. Furthermore, a new prosody generator module enhances the diversity of prosody, making the rhythm of the speech sound more natural. The generation processes of FlashSpeech can be achieved efficiently with one or two sampling steps while maintaining high audio quality and high similarity to the audio prompt for zero-shot speech generation. Our experimental results demonstrate the superior performance of FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other zero-shot speech synthesis systems while maintaining comparable performance in terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates its versatility by efficiently performing tasks like voice conversion, speech editing, and diverse speech sampling. Audio samples can be found in https://flashspeech.github.io/.
PDF324December 15, 2024