CoMoSVC: Conversão de Voz Cantada Baseada em Modelo de Consistência
CoMoSVC: Consistency Model-based Singing Voice Conversion
January 3, 2024
Autores: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI
Resumo
Os métodos de Conversão de Voz Cantada (SVC) baseados em difusão têm alcançado desempenhos notáveis, produzindo áudios naturais com alta similaridade ao timbre alvo. No entanto, o processo iterativo de amostragem resulta em uma velocidade de inferência lenta, tornando a aceleração crucial. Neste artigo, propomos o CoMoSVC, um método de SVC baseado em modelo de consistência, que visa alcançar tanto a geração de alta qualidade quanto a amostragem em alta velocidade. Primeiro, um modelo professor baseado em difusão é especialmente projetado para SVC, e um modelo estudante é subsequentemente destilado sob propriedades de auto-consistência para alcançar a amostragem em um único passo. Experimentos realizados em uma única GPU NVIDIA GTX4090 revelam que, embora o CoMoSVC tenha uma velocidade de inferência significativamente mais rápida do que o sistema de SVC baseado em difusão state-of-the-art (SOTA), ele ainda alcança um desempenho de conversão comparável ou superior com base em métricas subjetivas e objetivas. Amostras de áudio e códigos estão disponíveis em https://comosvc.github.io/.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved
remarkable performances, producing natural audios with high similarity to the
target timbre. However, the iterative sampling process results in slow
inference speed, and acceleration thus becomes crucial. In this paper, we
propose CoMoSVC, a consistency model-based SVC method, which aims to achieve
both high-quality generation and high-speed sampling. A diffusion-based teacher
model is first specially designed for SVC, and a student model is further
distilled under self-consistency properties to achieve one-step sampling.
Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a
significantly faster inference speed than the state-of-the-art (SOTA)
diffusion-based SVC system, it still achieves comparable or superior conversion
performance based on both subjective and objective metrics. Audio samples and
codes are available at https://comosvc.github.io/.