FlashSpeech: Síntese de Fala Eficiente com Zero-Shot
FlashSpeech: Efficient Zero-Shot Speech Synthesis
April 23, 2024
Autores: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI
Resumo
Os recentes avanços na síntese de fala em grande escala com zero-shot têm sido impulsionados significativamente por modelos de linguagem e modelos de difusão. No entanto, o processo de geração de ambos os métodos é lento e computacionalmente intensivo. A síntese eficiente de fala utilizando um orçamento computacional menor para alcançar qualidade comparável a trabalhos anteriores continua sendo um desafio significativo. Neste artigo, apresentamos o FlashSpeech, um sistema de síntese de fala em grande escala com zero-shot que possui aproximadamente 5% do tempo de inferência em comparação com trabalhos anteriores. O FlashSpeech é construído sobre o modelo de consistência latente e aplica uma nova abordagem de treinamento de consistência adversarial que pode ser treinado do zero sem a necessidade de um modelo de difusão pré-treinado como professor. Além disso, um novo módulo gerador de prosódia aumenta a diversidade da prosódia, tornando o ritmo da fala mais natural. Os processos de geração do FlashSpeech podem ser alcançados de forma eficiente com um ou dois passos de amostragem, mantendo alta qualidade de áudio e alta similaridade com o prompt de áudio para geração de fala zero-shot. Nossos resultados experimentais demonstram o desempenho superior do FlashSpeech. Notavelmente, o FlashSpeech pode ser cerca de 20 vezes mais rápido do que outros sistemas de síntese de fala zero-shot, mantendo desempenho comparável em termos de qualidade de voz e similaridade. Além disso, o FlashSpeech demonstra sua versatilidade ao realizar eficientemente tarefas como conversão de voz, edição de fala e amostragem diversificada de fala. Amostras de áudio podem ser encontradas em https://flashspeech.github.io/.
English
Recent progress in large-scale zero-shot speech synthesis has been
significantly advanced by language models and diffusion models. However, the
generation process of both methods is slow and computationally intensive.
Efficient speech synthesis using a lower computing budget to achieve quality on
par with previous work remains a significant challenge. In this paper, we
present FlashSpeech, a large-scale zero-shot speech synthesis system with
approximately 5\% of the inference time compared with previous work.
FlashSpeech is built on the latent consistency model and applies a novel
adversarial consistency training approach that can train from scratch without
the need for a pre-trained diffusion model as the teacher. Furthermore, a new
prosody generator module enhances the diversity of prosody, making the rhythm
of the speech sound more natural. The generation processes of FlashSpeech can
be achieved efficiently with one or two sampling steps while maintaining high
audio quality and high similarity to the audio prompt for zero-shot speech
generation. Our experimental results demonstrate the superior performance of
FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other
zero-shot speech synthesis systems while maintaining comparable performance in
terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates
its versatility by efficiently performing tasks like voice conversion, speech
editing, and diverse speech sampling. Audio samples can be found in
https://flashspeech.github.io/.