ChatPaper.aiChatPaper

CoMoSVC : Conversion de voix chantée basée sur un modèle de cohérence

CoMoSVC: Consistency Model-based Singing Voice Conversion

January 3, 2024
Auteurs: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI

Résumé

Les méthodes de conversion de voix chantée (SVC) basées sur la diffusion ont atteint des performances remarquables, produisant des audios naturels avec une grande similarité au timbre cible. Cependant, le processus d'échantillonnage itératif entraîne une vitesse d'inférence lente, rendant ainsi l'accélération cruciale. Dans cet article, nous proposons CoMoSVC, une méthode SVC basée sur un modèle de cohérence, visant à atteindre à la fois une génération de haute qualité et un échantillonnage à grande vitesse. Un modèle enseignant basé sur la diffusion est d'abord spécialement conçu pour la SVC, puis un modèle étudiant est distillé en exploitant les propriétés d'auto-cohérence pour réaliser un échantillonnage en une seule étape. Les expériences menées sur une seule carte graphique NVIDIA GTX4090 révèlent que bien que CoMoSVC ait une vitesse d'inférence significativement plus rapide que le système SVC basé sur la diffusion de pointe (SOTA), il atteint tout de même des performances de conversion comparables ou supérieures selon des mesures subjectives et objectives. Des échantillons audio et les codes sont disponibles à l'adresse https://comosvc.github.io/.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved remarkable performances, producing natural audios with high similarity to the target timbre. However, the iterative sampling process results in slow inference speed, and acceleration thus becomes crucial. In this paper, we propose CoMoSVC, a consistency model-based SVC method, which aims to achieve both high-quality generation and high-speed sampling. A diffusion-based teacher model is first specially designed for SVC, and a student model is further distilled under self-consistency properties to achieve one-step sampling. Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a significantly faster inference speed than the state-of-the-art (SOTA) diffusion-based SVC system, it still achieves comparable or superior conversion performance based on both subjective and objective metrics. Audio samples and codes are available at https://comosvc.github.io/.
PDF110December 15, 2024