FlashSpeech: Síntesis de Voz Eficiente con Capacidad Zero-Shot
FlashSpeech: Efficient Zero-Shot Speech Synthesis
April 23, 2024
Autores: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI
Resumen
Los recientes avances en la síntesis de voz a gran escala con capacidad zero-shot han sido impulsados significativamente por los modelos de lenguaje y los modelos de difusión. Sin embargo, el proceso de generación de ambos métodos es lento y computacionalmente intensivo. La síntesis eficiente de voz utilizando un presupuesto computacional más reducido para alcanzar una calidad comparable a trabajos previos sigue siendo un desafío importante. En este artículo, presentamos FlashSpeech, un sistema de síntesis de voz a gran escala con capacidad zero-shot que reduce el tiempo de inferencia a aproximadamente un 5% en comparación con trabajos anteriores. FlashSpeech se basa en el modelo de consistencia latente y aplica un novedoso enfoque de entrenamiento de consistencia adversarial que puede entrenarse desde cero sin necesidad de un modelo de difusión preentrenado como guía. Además, un nuevo módulo generador de prosodia mejora la diversidad de la prosodia, haciendo que el ritmo del habla suene más natural. Los procesos de generación de FlashSpeech pueden lograrse eficientemente con uno o dos pasos de muestreo, manteniendo una alta calidad de audio y una gran similitud con la señal de audio de referencia para la generación de voz zero-shot. Nuestros resultados experimentales demuestran el rendimiento superior de FlashSpeech. En particular, FlashSpeech puede ser aproximadamente 20 veces más rápido que otros sistemas de síntesis de voz zero-shot, manteniendo un rendimiento comparable en términos de calidad de voz y similitud. Además, FlashSpeech demuestra su versatilidad al realizar eficientemente tareas como conversión de voz, edición de habla y muestreo diverso de voz. Las muestras de audio pueden encontrarse en https://flashspeech.github.io/.
English
Recent progress in large-scale zero-shot speech synthesis has been
significantly advanced by language models and diffusion models. However, the
generation process of both methods is slow and computationally intensive.
Efficient speech synthesis using a lower computing budget to achieve quality on
par with previous work remains a significant challenge. In this paper, we
present FlashSpeech, a large-scale zero-shot speech synthesis system with
approximately 5\% of the inference time compared with previous work.
FlashSpeech is built on the latent consistency model and applies a novel
adversarial consistency training approach that can train from scratch without
the need for a pre-trained diffusion model as the teacher. Furthermore, a new
prosody generator module enhances the diversity of prosody, making the rhythm
of the speech sound more natural. The generation processes of FlashSpeech can
be achieved efficiently with one or two sampling steps while maintaining high
audio quality and high similarity to the audio prompt for zero-shot speech
generation. Our experimental results demonstrate the superior performance of
FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other
zero-shot speech synthesis systems while maintaining comparable performance in
terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates
its versatility by efficiently performing tasks like voice conversion, speech
editing, and diverse speech sampling. Audio samples can be found in
https://flashspeech.github.io/.Summary
AI-Generated Summary