CoMoSVC: Модель консистентности для преобразования вокального пения
CoMoSVC: Consistency Model-based Singing Voice Conversion
January 3, 2024
Авторы: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI
Аннотация
Методы преобразования певческого голоса (SVC), основанные на диффузии, достигли выдающихся результатов, создавая естественные аудиозаписи с высокой степенью схожести с целевым тембром. Однако итеративный процесс сэмплирования приводит к медленной скорости вывода, что делает ускорение критически важным. В данной статье мы предлагаем CoMoSVC — метод SVC, основанный на модели согласованности, который направлен на достижение как высококачественной генерации, так и быстрого сэмплирования. Сначала специально разрабатывается диффузионная модель-учитель для SVC, а затем модель-ученик дистиллируется с учетом свойств самосогласованности для достижения одношагового сэмплирования. Эксперименты на видеокарте NVIDIA GTX4090 показывают, что, хотя CoMoSVC имеет значительно более высокую скорость вывода по сравнению с современной (SOTA) диффузионной системой SVC, она все же демонстрирует сопоставимую или превосходящую производительность преобразования как по субъективным, так и по объективным метрикам. Аудиообразцы и код доступны по адресу https://comosvc.github.io/.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved
remarkable performances, producing natural audios with high similarity to the
target timbre. However, the iterative sampling process results in slow
inference speed, and acceleration thus becomes crucial. In this paper, we
propose CoMoSVC, a consistency model-based SVC method, which aims to achieve
both high-quality generation and high-speed sampling. A diffusion-based teacher
model is first specially designed for SVC, and a student model is further
distilled under self-consistency properties to achieve one-step sampling.
Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a
significantly faster inference speed than the state-of-the-art (SOTA)
diffusion-based SVC system, it still achieves comparable or superior conversion
performance based on both subjective and objective metrics. Audio samples and
codes are available at https://comosvc.github.io/.