FlashSpeech: 効率的なゼロショット音声合成
FlashSpeech: Efficient Zero-Shot Speech Synthesis
April 23, 2024
著者: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI
要旨
大規模ゼロショット音声合成における最近の進展は、言語モデルと拡散モデルによって大きく推進されてきた。しかし、これらの手法の生成プロセスは遅く、計算量も多い。従来の研究と同等の品質を維持しつつ、低い計算予算で効率的な音声合成を実現することは依然として重要な課題である。本論文では、従来の研究と比較して推論時間が約5%である大規模ゼロショット音声合成システム「FlashSpeech」を提案する。FlashSpeechは潜在的一貫性モデルを基盤としており、教師モデルとして事前学習済みの拡散モデルを必要とせずにスクラッチから学習可能な新たな敵対的一貫性学習アプローチを適用している。さらに、新しい韻律生成モジュールにより韻律の多様性が向上し、音声のリズムがより自然になる。FlashSpeechの生成プロセスは、1回または2回のサンプリングステップで効率的に達成され、高品質な音声とゼロショット音声生成における音声プロンプトとの高い類似性を維持する。実験結果は、FlashSpeechの優れた性能を示している。特に、FlashSpeechは他のゼロショット音声合成システムと比較して約20倍高速でありながら、音声品質と類似性の点で同等の性能を維持する。さらに、FlashSpeechは、音声変換、音声編集、多様な音声サンプリングなどのタスクを効率的に実行する汎用性を実証している。音声サンプルはhttps://flashspeech.github.io/で確認できる。
English
Recent progress in large-scale zero-shot speech synthesis has been
significantly advanced by language models and diffusion models. However, the
generation process of both methods is slow and computationally intensive.
Efficient speech synthesis using a lower computing budget to achieve quality on
par with previous work remains a significant challenge. In this paper, we
present FlashSpeech, a large-scale zero-shot speech synthesis system with
approximately 5\% of the inference time compared with previous work.
FlashSpeech is built on the latent consistency model and applies a novel
adversarial consistency training approach that can train from scratch without
the need for a pre-trained diffusion model as the teacher. Furthermore, a new
prosody generator module enhances the diversity of prosody, making the rhythm
of the speech sound more natural. The generation processes of FlashSpeech can
be achieved efficiently with one or two sampling steps while maintaining high
audio quality and high similarity to the audio prompt for zero-shot speech
generation. Our experimental results demonstrate the superior performance of
FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other
zero-shot speech synthesis systems while maintaining comparable performance in
terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates
its versatility by efficiently performing tasks like voice conversion, speech
editing, and diverse speech sampling. Audio samples can be found in
https://flashspeech.github.io/.Summary
AI-Generated Summary