ChatPaper.aiChatPaper

CoMoSVC: Модель консистентности для преобразования вокального пения

CoMoSVC: Consistency Model-based Singing Voice Conversion

January 3, 2024
Авторы: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI

Аннотация

Методы преобразования певческого голоса (SVC), основанные на диффузии, достигли выдающихся результатов, создавая естественные аудиозаписи с высокой степенью схожести с целевым тембром. Однако итеративный процесс сэмплирования приводит к медленной скорости вывода, что делает ускорение критически важным. В данной статье мы предлагаем CoMoSVC — метод SVC, основанный на модели согласованности, который направлен на достижение как высококачественной генерации, так и быстрого сэмплирования. Сначала специально разрабатывается диффузионная модель-учитель для SVC, а затем модель-ученик дистиллируется с учетом свойств самосогласованности для достижения одношагового сэмплирования. Эксперименты на видеокарте NVIDIA GTX4090 показывают, что, хотя CoMoSVC имеет значительно более высокую скорость вывода по сравнению с современной (SOTA) диффузионной системой SVC, она все же демонстрирует сопоставимую или превосходящую производительность преобразования как по субъективным, так и по объективным метрикам. Аудиообразцы и код доступны по адресу https://comosvc.github.io/.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved remarkable performances, producing natural audios with high similarity to the target timbre. However, the iterative sampling process results in slow inference speed, and acceleration thus becomes crucial. In this paper, we propose CoMoSVC, a consistency model-based SVC method, which aims to achieve both high-quality generation and high-speed sampling. A diffusion-based teacher model is first specially designed for SVC, and a student model is further distilled under self-consistency properties to achieve one-step sampling. Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a significantly faster inference speed than the state-of-the-art (SOTA) diffusion-based SVC system, it still achieves comparable or superior conversion performance based on both subjective and objective metrics. Audio samples and codes are available at https://comosvc.github.io/.
PDF110December 15, 2024