ChatPaper.aiChatPaper

Amélioration de l'optimisation au moment de l'inférence pour le transfert de style d'effets vocaux avec un a priori gaussien

Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior

May 16, 2025
Auteurs: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas
cs.AI

Résumé

Le transfert de style avec optimisation au moment de l'inférence (ST-ITO) est une approche récente pour transférer les effets appliqués d'un audio de référence à une piste audio brute. Il optimise les paramètres des effets pour minimiser la distance entre les embeddings de style de l'audio traité et celui de référence. Cependant, cette méthode traite toutes les configurations possibles de manière égale et repose uniquement sur l'espace d'embedding, ce qui peut conduire à des résultats irréalistes ou biaisés. Nous abordons cet écueil en introduisant un a priori gaussien dérivé d'un jeu de données de préréglages vocaux, DiffVox, sur l'espace des paramètres. L'optimisation résultante est équivalente à une estimation du maximum a posteriori. Les évaluations sur le transfert d'effets vocaux sur le jeu de données MedleyDB montrent des améliorations significatives sur plusieurs métriques par rapport aux méthodes de référence, y compris un estimateur d'effets audio aveugle, des approches par plus proches voisins et le ST-ITO non calibré. La calibration proposée réduit l'erreur quadratique moyenne des paramètres jusqu'à 33 % et correspond mieux au style de référence. Des évaluations subjectives avec 16 participants confirment la supériorité de notre méthode, en particulier dans des régimes de données limitées. Ce travail démontre comment l'intégration de connaissances a priori au moment de l'inférence améliore le transfert d'effets audio, ouvrant la voie à des systèmes de traitement audio plus efficaces et réalistes.
English
Style Transfer with Inference-Time Optimisation (ST-ITO) is a recent approach for transferring the applied effects of a reference audio to a raw audio track. It optimises the effect parameters to minimise the distance between the style embeddings of the processed audio and the reference. However, this method treats all possible configurations equally and relies solely on the embedding space, which can lead to unrealistic or biased results. We address this pitfall by introducing a Gaussian prior derived from a vocal preset dataset, DiffVox, over the parameter space. The resulting optimisation is equivalent to maximum-a-posteriori estimation. Evaluations on vocal effects transfer on the MedleyDB dataset show significant improvements across metrics compared to baselines, including a blind audio effects estimator, nearest-neighbour approaches, and uncalibrated ST-ITO. The proposed calibration reduces parameter mean squared error by up to 33% and matches the reference style better. Subjective evaluations with 16 participants confirm our method's superiority, especially in limited data regimes. This work demonstrates how incorporating prior knowledge in inference time enhances audio effects transfer, paving the way for more effective and realistic audio processing systems.

Summary

AI-Generated Summary

PDF02May 19, 2025