ChatPaper.aiChatPaper

CoMoSVC: Consistentiemodel-gebaseerde Zangstemconversie

CoMoSVC: Consistency Model-based Singing Voice Conversion

January 3, 2024
Auteurs: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI

Samenvatting

De op diffusie gebaseerde Singing Voice Conversion (SVC)-methoden hebben opmerkelijke prestaties bereikt, waarbij natuurlijke audio wordt geproduceerd met een hoge gelijkenis aan het doel-timbre. Het iteratieve samplingproces resulteert echter in een trage inferentiesnelheid, waardoor versnelling cruciaal wordt. In dit artikel stellen we CoMoSVC voor, een SVC-methode gebaseerd op een consistentiemodel, die zowel hoogwaardige generatie als snelle sampling beoogt te bereiken. Eerst wordt een op diffusie gebaseerd leraarmodel speciaal ontworpen voor SVC, en vervolgens wordt een studentmodel gedistilleerd onder zelfconsistentie-eigenschappen om éénstaps sampling te realiseren. Experimenten op een enkele NVIDIA GTX4090 GPU laten zien dat, hoewel CoMoSVC een aanzienlijk snellere inferentiesnelheid heeft dan het state-of-the-art (SOTA) op diffusie gebaseerde SVC-systeem, het nog steeds vergelijkbare of superieure conversieprestaties behaalt op basis van zowel subjectieve als objectieve metrieken. Audio samples en codes zijn beschikbaar op https://comosvc.github.io/.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved remarkable performances, producing natural audios with high similarity to the target timbre. However, the iterative sampling process results in slow inference speed, and acceleration thus becomes crucial. In this paper, we propose CoMoSVC, a consistency model-based SVC method, which aims to achieve both high-quality generation and high-speed sampling. A diffusion-based teacher model is first specially designed for SVC, and a student model is further distilled under self-consistency properties to achieve one-step sampling. Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a significantly faster inference speed than the state-of-the-art (SOTA) diffusion-based SVC system, it still achieves comparable or superior conversion performance based on both subjective and objective metrics. Audio samples and codes are available at https://comosvc.github.io/.
PDF110December 15, 2024