ChatPaper.aiChatPaper

CoMoSVC: Conversione Vocale Cantata basata su Modelli di Consistenza

CoMoSVC: Consistency Model-based Singing Voice Conversion

January 3, 2024
Autori: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI

Abstract

I metodi di Conversione della Voce Cantata (SVC) basati sulla diffusione hanno ottenuto prestazioni notevoli, producendo audio naturali con un'elevata somiglianza al timbro target. Tuttavia, il processo iterativo di campionamento risulta in una velocità di inferenza lenta, rendendo cruciale l'accelerazione. In questo articolo, proponiamo CoMoSVC, un metodo SVC basato su un modello di consistenza, che mira a raggiungere sia una generazione di alta qualità che un campionamento ad alta velocità. Un modello insegnante basato sulla diffusione viene inizialmente progettato specificamente per l'SVC, e un modello studente viene ulteriormente distillato sotto le proprietà di auto-consistenza per ottenere un campionamento in un solo passaggio. Esperimenti condotti su una singola GPU NVIDIA GTX4090 rivelano che, sebbene CoMoSVC abbia una velocità di inferenza significativamente più rapida rispetto al sistema SVC basato sulla diffusione allo stato dell'arte (SOTA), raggiunge comunque prestazioni di conversione comparabili o superiori basate su metriche sia soggettive che oggettive. Campioni audio e codici sono disponibili all'indirizzo https://comosvc.github.io/.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved remarkable performances, producing natural audios with high similarity to the target timbre. However, the iterative sampling process results in slow inference speed, and acceleration thus becomes crucial. In this paper, we propose CoMoSVC, a consistency model-based SVC method, which aims to achieve both high-quality generation and high-speed sampling. A diffusion-based teacher model is first specially designed for SVC, and a student model is further distilled under self-consistency properties to achieve one-step sampling. Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a significantly faster inference speed than the state-of-the-art (SOTA) diffusion-based SVC system, it still achieves comparable or superior conversion performance based on both subjective and objective metrics. Audio samples and codes are available at https://comosvc.github.io/.
PDF110December 15, 2024