FlashSpeech: Síntese de Fala Eficiente com Zero-Shot

Resumo

Os recentes avanços na síntese de fala em grande escala com zero-shot têm sido impulsionados significativamente por modelos de linguagem e modelos de difusão. No entanto, o processo de geração de ambos os métodos é lento e computacionalmente intensivo. A síntese eficiente de fala utilizando um orçamento computacional menor para alcançar qualidade comparável a trabalhos anteriores continua sendo um desafio significativo. Neste artigo, apresentamos o FlashSpeech, um sistema de síntese de fala em grande escala com zero-shot que possui aproximadamente 5% do tempo de inferência em comparação com trabalhos anteriores. O FlashSpeech é construído sobre o modelo de consistência latente e aplica uma nova abordagem de treinamento de consistência adversarial que pode ser treinado do zero sem a necessidade de um modelo de difusão pré-treinado como professor. Além disso, um novo módulo gerador de prosódia aumenta a diversidade da prosódia, tornando o ritmo da fala mais natural. Os processos de geração do FlashSpeech podem ser alcançados de forma eficiente com um ou dois passos de amostragem, mantendo alta qualidade de áudio e alta similaridade com o prompt de áudio para geração de fala zero-shot. Nossos resultados experimentais demonstram o desempenho superior do FlashSpeech. Notavelmente, o FlashSpeech pode ser cerca de 20 vezes mais rápido do que outros sistemas de síntese de fala zero-shot, mantendo desempenho comparável em termos de qualidade de voz e similaridade. Além disso, o FlashSpeech demonstra sua versatilidade ao realizar eficientemente tarefas como conversão de voz, edição de fala e amostragem diversificada de fala. Amostras de áudio podem ser encontradas em https://flashspeech.github.io/.

English

Recent progress in large-scale zero-shot speech synthesis has been significantly advanced by language models and diffusion models. However, the generation process of both methods is slow and computationally intensive. Efficient speech synthesis using a lower computing budget to achieve quality on par with previous work remains a significant challenge. In this paper, we present FlashSpeech, a large-scale zero-shot speech synthesis system with approximately 5\% of the inference time compared with previous work. FlashSpeech is built on the latent consistency model and applies a novel adversarial consistency training approach that can train from scratch without the need for a pre-trained diffusion model as the teacher. Furthermore, a new prosody generator module enhances the diversity of prosody, making the rhythm of the speech sound more natural. The generation processes of FlashSpeech can be achieved efficiently with one or two sampling steps while maintaining high audio quality and high similarity to the audio prompt for zero-shot speech generation. Our experimental results demonstrate the superior performance of FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other zero-shot speech synthesis systems while maintaining comparable performance in terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates its versatility by efficiently performing tasks like voice conversion, speech editing, and diverse speech sampling. Audio samples can be found in https://flashspeech.github.io/.

FlashSpeech: Síntese de Fala Eficiente com Zero-Shot

FlashSpeech: Efficient Zero-Shot Speech Synthesis

Resumo

Support