CoMoSVC: Conversione Vocale Cantata basata su Modelli di Consistenza
CoMoSVC: Consistency Model-based Singing Voice Conversion
January 3, 2024
Autori: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI
Abstract
I metodi di Conversione della Voce Cantata (SVC) basati sulla diffusione hanno ottenuto prestazioni notevoli, producendo audio naturali con un'elevata somiglianza al timbro target. Tuttavia, il processo iterativo di campionamento risulta in una velocità di inferenza lenta, rendendo cruciale l'accelerazione. In questo articolo, proponiamo CoMoSVC, un metodo SVC basato su un modello di consistenza, che mira a raggiungere sia una generazione di alta qualità che un campionamento ad alta velocità. Un modello insegnante basato sulla diffusione viene inizialmente progettato specificamente per l'SVC, e un modello studente viene ulteriormente distillato sotto le proprietà di auto-consistenza per ottenere un campionamento in un solo passaggio. Esperimenti condotti su una singola GPU NVIDIA GTX4090 rivelano che, sebbene CoMoSVC abbia una velocità di inferenza significativamente più rapida rispetto al sistema SVC basato sulla diffusione allo stato dell'arte (SOTA), raggiunge comunque prestazioni di conversione comparabili o superiori basate su metriche sia soggettive che oggettive. Campioni audio e codici sono disponibili all'indirizzo https://comosvc.github.io/.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved
remarkable performances, producing natural audios with high similarity to the
target timbre. However, the iterative sampling process results in slow
inference speed, and acceleration thus becomes crucial. In this paper, we
propose CoMoSVC, a consistency model-based SVC method, which aims to achieve
both high-quality generation and high-speed sampling. A diffusion-based teacher
model is first specially designed for SVC, and a student model is further
distilled under self-consistency properties to achieve one-step sampling.
Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a
significantly faster inference speed than the state-of-the-art (SOTA)
diffusion-based SVC system, it still achieves comparable or superior conversion
performance based on both subjective and objective metrics. Audio samples and
codes are available at https://comosvc.github.io/.