CoMoSVC: Konsistenzmodell-basierte Gesangsstimmkonvertierung
CoMoSVC: Consistency Model-based Singing Voice Conversion
January 3, 2024
Autoren: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
cs.AI
Zusammenfassung
Die diffusionsbasierten Methoden zur Singing Voice Conversion (SVC) haben bemerkenswerte Leistungen erzielt und natürliche Audios erzeugt, die eine hohe Ähnlichkeit mit dem Zielklang aufweisen. Der iterative Sampling-Prozess führt jedoch zu einer langsamen Inferenzgeschwindigkeit, weshalb eine Beschleunigung entscheidend wird. In diesem Artikel schlagen wir CoMoSVC vor, eine SVC-Methode basierend auf einem Konsistenzmodell, die sowohl eine hochwertige Generierung als auch eine schnelle Sampling-Geschwindigkeit anstrebt. Zunächst wird ein diffusionsbasiertes Lehrer-Modell speziell für SVC entwickelt, und ein Schüler-Modell wird weiterhin unter Selbstkonsistenz-Eigenschaften destilliert, um ein One-Step-Sampling zu erreichen. Experimente auf einer einzelnen NVIDIA GTX4090 GPU zeigen, dass CoMoSVC zwar eine deutlich schnellere Inferenzgeschwindigkeit als das state-of-the-art (SOTA) diffusionsbasierte SVC-System aufweist, aber dennoch eine vergleichbare oder überlegene Konvertierungsleistung basierend auf sowohl subjektiven als auch objektiven Metriken erzielt. Audio-Beispiele und Codes sind unter https://comosvc.github.io/ verfügbar.
English
The diffusion-based Singing Voice Conversion (SVC) methods have achieved
remarkable performances, producing natural audios with high similarity to the
target timbre. However, the iterative sampling process results in slow
inference speed, and acceleration thus becomes crucial. In this paper, we
propose CoMoSVC, a consistency model-based SVC method, which aims to achieve
both high-quality generation and high-speed sampling. A diffusion-based teacher
model is first specially designed for SVC, and a student model is further
distilled under self-consistency properties to achieve one-step sampling.
Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a
significantly faster inference speed than the state-of-the-art (SOTA)
diffusion-based SVC system, it still achieves comparable or superior conversion
performance based on both subjective and objective metrics. Audio samples and
codes are available at https://comosvc.github.io/.