CoMoSVC: Conversión de Voz Cantada Basada en Modelos de Consistencia
CoMoSVC: Consistency Model-based Singing Voice Conversion
January 3, 2024
Autores: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI
Resumen
Los métodos de Conversión de Voz Cantada (SVC, por sus siglas en inglés) basados en difusión han logrado resultados notables, produciendo audios naturales con una alta similitud al timbre objetivo. Sin embargo, el proceso de muestreo iterativo resulta en una velocidad de inferencia lenta, por lo que la aceleración se vuelve crucial. En este artículo, proponemos CoMoSVC, un método de SVC basado en un modelo de consistencia, que busca lograr tanto una generación de alta calidad como un muestreo de alta velocidad. Primero, se diseña un modelo maestro basado en difusión específicamente para SVC, y luego se destila un modelo estudiantil bajo propiedades de autoconsistencia para lograr un muestreo en un solo paso. Los experimentos realizados en una GPU NVIDIA GTX4090 revelan que, aunque CoMoSVC tiene una velocidad de inferencia significativamente más rápida que el sistema SVC basado en difusión más avanzado (SOTA), aún logra un rendimiento de conversión comparable o superior según métricas tanto subjetivas como objetivas. Muestras de audio y códigos están disponibles en https://comosvc.github.io/.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved
remarkable performances, producing natural audios with high similarity to the
target timbre. However, the iterative sampling process results in slow
inference speed, and acceleration thus becomes crucial. In this paper, we
propose CoMoSVC, a consistency model-based SVC method, which aims to achieve
both high-quality generation and high-speed sampling. A diffusion-based teacher
model is first specially designed for SVC, and a student model is further
distilled under self-consistency properties to achieve one-step sampling.
Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a
significantly faster inference speed than the state-of-the-art (SOTA)
diffusion-based SVC system, it still achieves comparable or superior conversion
performance based on both subjective and objective metrics. Audio samples and
codes are available at https://comosvc.github.io/.