FlashSpeech : Synthèse vocale efficace en mode zero-shot
FlashSpeech: Efficient Zero-Shot Speech Synthesis
April 23, 2024
Auteurs: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI
Résumé
Les récents progrès dans la synthèse vocale à grande échelle en mode zero-shot ont été considérablement stimulés par les modèles de langage et les modèles de diffusion. Cependant, le processus de génération de ces deux méthodes est lent et nécessite une importante puissance de calcul. La synthèse vocale efficace avec un budget de calcul réduit tout en atteignant une qualité comparable aux travaux précédents reste un défi majeur. Dans cet article, nous présentons FlashSpeech, un système de synthèse vocale à grande échelle en mode zero-shot qui réduit le temps d'inférence à environ 5 % par rapport aux travaux antérieurs. FlashSpeech est basé sur le modèle de cohérence latente et applique une nouvelle approche d'entraînement adversarial de cohérence, permettant un entraînement à partir de zéro sans nécessiter un modèle de diffusion pré-entraîné comme enseignant. De plus, un nouveau module générateur de prosodie améliore la diversité de la prosodie, rendant le rythme de la parole plus naturel. Les processus de génération de FlashSpeech peuvent être réalisés efficacement en une ou deux étapes d'échantillonnage tout en maintenant une qualité audio élevée et une forte similarité avec l'extrait audio pour la génération de parole en mode zero-shot. Nos résultats expérimentaux démontrent la performance supérieure de FlashSpeech. Notamment, FlashSpeech peut être environ 20 fois plus rapide que les autres systèmes de synthèse vocale en mode zero-shot tout en maintenant des performances comparables en termes de qualité vocale et de similarité. Par ailleurs, FlashSpeech démontre sa polyvalence en réalisant efficacement des tâches telles que la conversion vocale, l'édition de parole et l'échantillonnage diversifié de parole. Des échantillons audio sont disponibles sur https://flashspeech.github.io/.
English
Recent progress in large-scale zero-shot speech synthesis has been
significantly advanced by language models and diffusion models. However, the
generation process of both methods is slow and computationally intensive.
Efficient speech synthesis using a lower computing budget to achieve quality on
par with previous work remains a significant challenge. In this paper, we
present FlashSpeech, a large-scale zero-shot speech synthesis system with
approximately 5\% of the inference time compared with previous work.
FlashSpeech is built on the latent consistency model and applies a novel
adversarial consistency training approach that can train from scratch without
the need for a pre-trained diffusion model as the teacher. Furthermore, a new
prosody generator module enhances the diversity of prosody, making the rhythm
of the speech sound more natural. The generation processes of FlashSpeech can
be achieved efficiently with one or two sampling steps while maintaining high
audio quality and high similarity to the audio prompt for zero-shot speech
generation. Our experimental results demonstrate the superior performance of
FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other
zero-shot speech synthesis systems while maintaining comparable performance in
terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates
its versatility by efficiently performing tasks like voice conversion, speech
editing, and diverse speech sampling. Audio samples can be found in
https://flashspeech.github.io/.Summary
AI-Generated Summary