FlashSpeech: Síntesis de Voz Eficiente con Capacidad Zero-Shot

Resumen

Los recientes avances en la síntesis de voz a gran escala con capacidad zero-shot han sido impulsados significativamente por los modelos de lenguaje y los modelos de difusión. Sin embargo, el proceso de generación de ambos métodos es lento y computacionalmente intensivo. La síntesis eficiente de voz utilizando un presupuesto computacional más reducido para alcanzar una calidad comparable a trabajos previos sigue siendo un desafío importante. En este artículo, presentamos FlashSpeech, un sistema de síntesis de voz a gran escala con capacidad zero-shot que reduce el tiempo de inferencia a aproximadamente un 5% en comparación con trabajos anteriores. FlashSpeech se basa en el modelo de consistencia latente y aplica un novedoso enfoque de entrenamiento de consistencia adversarial que puede entrenarse desde cero sin necesidad de un modelo de difusión preentrenado como guía. Además, un nuevo módulo generador de prosodia mejora la diversidad de la prosodia, haciendo que el ritmo del habla suene más natural. Los procesos de generación de FlashSpeech pueden lograrse eficientemente con uno o dos pasos de muestreo, manteniendo una alta calidad de audio y una gran similitud con la señal de audio de referencia para la generación de voz zero-shot. Nuestros resultados experimentales demuestran el rendimiento superior de FlashSpeech. En particular, FlashSpeech puede ser aproximadamente 20 veces más rápido que otros sistemas de síntesis de voz zero-shot, manteniendo un rendimiento comparable en términos de calidad de voz y similitud. Además, FlashSpeech demuestra su versatilidad al realizar eficientemente tareas como conversión de voz, edición de habla y muestreo diverso de voz. Las muestras de audio pueden encontrarse en https://flashspeech.github.io/.

English

Recent progress in large-scale zero-shot speech synthesis has been significantly advanced by language models and diffusion models. However, the generation process of both methods is slow and computationally intensive. Efficient speech synthesis using a lower computing budget to achieve quality on par with previous work remains a significant challenge. In this paper, we present FlashSpeech, a large-scale zero-shot speech synthesis system with approximately 5\% of the inference time compared with previous work. FlashSpeech is built on the latent consistency model and applies a novel adversarial consistency training approach that can train from scratch without the need for a pre-trained diffusion model as the teacher. Furthermore, a new prosody generator module enhances the diversity of prosody, making the rhythm of the speech sound more natural. The generation processes of FlashSpeech can be achieved efficiently with one or two sampling steps while maintaining high audio quality and high similarity to the audio prompt for zero-shot speech generation. Our experimental results demonstrate the superior performance of FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other zero-shot speech synthesis systems while maintaining comparable performance in terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates its versatility by efficiently performing tasks like voice conversion, speech editing, and diverse speech sampling. Audio samples can be found in https://flashspeech.github.io/.

FlashSpeech: Síntesis de Voz Eficiente con Capacidad Zero-Shot

FlashSpeech: Efficient Zero-Shot Speech Synthesis

Resumen

Support