FlashSpeech: Sintesi Vocale Efficiente in Modalità Zero-Shot
FlashSpeech: Efficient Zero-Shot Speech Synthesis
April 23, 2024
Autori: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI
Abstract
I recenti progressi nella sintesi vocale su larga scala zero-shot sono stati significativamente avanzati dai modelli linguistici e dai modelli di diffusione. Tuttavia, il processo di generazione di entrambi i metodi è lento e computazionalmente intensivo. La sintesi vocale efficiente che utilizza un budget computazionale inferiore per raggiungere una qualità paragonabile ai lavori precedenti rimane una sfida significativa. In questo articolo, presentiamo FlashSpeech, un sistema di sintesi vocale su larga scala zero-shot con un tempo di inferenza pari a circa il 5% rispetto ai lavori precedenti. FlashSpeech è basato sul modello di consistenza latente e applica un nuovo approccio di addestramento di consistenza avversaria che può essere addestrato da zero senza la necessità di un modello di diffusione pre-addestrato come insegnante. Inoltre, un nuovo modulo generatore di prosodia migliora la diversità della prosodia, rendendo il ritmo del parlato più naturale. I processi di generazione di FlashSpeech possono essere raggiunti in modo efficiente con uno o due passaggi di campionamento mantenendo un'elevata qualità audio e un'elevata somiglianza con il prompt audio per la generazione vocale zero-shot. I nostri risultati sperimentali dimostrano le prestazioni superiori di FlashSpeech. In particolare, FlashSpeech può essere circa 20 volte più veloce rispetto ad altri sistemi di sintesi vocale zero-shot mantenendo prestazioni comparabili in termini di qualità vocale e somiglianza. Inoltre, FlashSpeech dimostra la sua versatilità eseguendo in modo efficiente compiti come la conversione vocale, l'editing del parlato e il campionamento vocale diversificato. I campioni audio possono essere trovati su https://flashspeech.github.io/.
English
Recent progress in large-scale zero-shot speech synthesis has been
significantly advanced by language models and diffusion models. However, the
generation process of both methods is slow and computationally intensive.
Efficient speech synthesis using a lower computing budget to achieve quality on
par with previous work remains a significant challenge. In this paper, we
present FlashSpeech, a large-scale zero-shot speech synthesis system with
approximately 5\% of the inference time compared with previous work.
FlashSpeech is built on the latent consistency model and applies a novel
adversarial consistency training approach that can train from scratch without
the need for a pre-trained diffusion model as the teacher. Furthermore, a new
prosody generator module enhances the diversity of prosody, making the rhythm
of the speech sound more natural. The generation processes of FlashSpeech can
be achieved efficiently with one or two sampling steps while maintaining high
audio quality and high similarity to the audio prompt for zero-shot speech
generation. Our experimental results demonstrate the superior performance of
FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other
zero-shot speech synthesis systems while maintaining comparable performance in
terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates
its versatility by efficiently performing tasks like voice conversion, speech
editing, and diverse speech sampling. Audio samples can be found in
https://flashspeech.github.io/.