FlashSpeech: Effiziente Zero-Shot Sprachsynthese
FlashSpeech: Efficient Zero-Shot Speech Synthesis
April 23, 2024
papers.authors: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI
papers.abstract
In jüngster Zeit wurde der Fortschritt bei der groß angelegten Null-Schuss-Sprachsynthese erheblich durch Sprachmodelle und Diffusionsmodelle vorangetrieben. Der Generierungsprozess beider Methoden ist jedoch langsam und rechenaufwändig. Eine effiziente Sprachsynthese unter Verwendung eines geringeren Rechenbudgets, um eine Qualität auf dem Niveau früherer Arbeiten zu erreichen, bleibt eine bedeutende Herausforderung. In diesem Artikel präsentieren wir FlashSpeech, ein groß angelegtes Null-Schuss-Sprachsynthesesystem mit ungefähr 5\% der Inferenzzeit im Vergleich zu früheren Arbeiten. FlashSpeech basiert auf dem Modell der latenten Konsistenz und verwendet einen neuartigen Ansatz des adversariellen Konsistenztrainings, der ohne die Notwendigkeit eines vorab trainierten Diffusionsmodells als Lehrer von Grund auf trainieren kann. Darüber hinaus verbessert ein neues Prosodiegenerator-Modul die Vielfalt der Prosodie, wodurch der Rhythmus der Sprache natürlicher klingt. Die Generierungsprozesse von FlashSpeech können effizient mit einem oder zwei Abtastschritten erreicht werden, während gleichzeitig eine hohe Audioqualität und hohe Ähnlichkeit mit der Audioeingabe für die Null-Schuss-Sprachgenerierung beibehalten werden. Unsere experimentellen Ergebnisse zeigen die überragende Leistung von FlashSpeech. Insbesondere kann FlashSpeech etwa 20 Mal schneller sein als andere Null-Schuss-Sprachsynthesesysteme und dabei eine vergleichbare Leistung in Bezug auf Sprachqualität und Ähnlichkeit beibehalten. Darüber hinaus zeigt FlashSpeech seine Vielseitigkeit, indem es effizient Aufgaben wie Sprachumwandlung, Sprachbearbeitung und vielfältige Sprachabtastung durchführt. Hörbeispiele finden Sie unter https://flashspeech.github.io/.
English
Recent progress in large-scale zero-shot speech synthesis has been
significantly advanced by language models and diffusion models. However, the
generation process of both methods is slow and computationally intensive.
Efficient speech synthesis using a lower computing budget to achieve quality on
par with previous work remains a significant challenge. In this paper, we
present FlashSpeech, a large-scale zero-shot speech synthesis system with
approximately 5\% of the inference time compared with previous work.
FlashSpeech is built on the latent consistency model and applies a novel
adversarial consistency training approach that can train from scratch without
the need for a pre-trained diffusion model as the teacher. Furthermore, a new
prosody generator module enhances the diversity of prosody, making the rhythm
of the speech sound more natural. The generation processes of FlashSpeech can
be achieved efficiently with one or two sampling steps while maintaining high
audio quality and high similarity to the audio prompt for zero-shot speech
generation. Our experimental results demonstrate the superior performance of
FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other
zero-shot speech synthesis systems while maintaining comparable performance in
terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates
its versatility by efficiently performing tasks like voice conversion, speech
editing, and diverse speech sampling. Audio samples can be found in
https://flashspeech.github.io/.