Amélioration de l'optimisation au moment de l'inférence pour le transfert de style d'effets vocaux avec un a priori gaussien
Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior
May 16, 2025
Auteurs: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas
cs.AI
Résumé
Le transfert de style avec optimisation au moment de l'inférence (ST-ITO) est une approche récente pour transférer les effets appliqués d'un audio de référence à une piste audio brute. Il optimise les paramètres des effets pour minimiser la distance entre les embeddings de style de l'audio traité et celui de référence. Cependant, cette méthode traite toutes les configurations possibles de manière égale et repose uniquement sur l'espace d'embedding, ce qui peut conduire à des résultats irréalistes ou biaisés. Nous abordons cet écueil en introduisant un a priori gaussien dérivé d'un jeu de données de préréglages vocaux, DiffVox, sur l'espace des paramètres. L'optimisation résultante est équivalente à une estimation du maximum a posteriori. Les évaluations sur le transfert d'effets vocaux sur le jeu de données MedleyDB montrent des améliorations significatives sur plusieurs métriques par rapport aux méthodes de référence, y compris un estimateur d'effets audio aveugle, des approches par plus proches voisins et le ST-ITO non calibré. La calibration proposée réduit l'erreur quadratique moyenne des paramètres jusqu'à 33 % et correspond mieux au style de référence. Des évaluations subjectives avec 16 participants confirment la supériorité de notre méthode, en particulier dans des régimes de données limitées. Ce travail démontre comment l'intégration de connaissances a priori au moment de l'inférence améliore le transfert d'effets audio, ouvrant la voie à des systèmes de traitement audio plus efficaces et réalistes.
English
Style Transfer with Inference-Time Optimisation (ST-ITO) is a recent approach
for transferring the applied effects of a reference audio to a raw audio track.
It optimises the effect parameters to minimise the distance between the style
embeddings of the processed audio and the reference. However, this method
treats all possible configurations equally and relies solely on the embedding
space, which can lead to unrealistic or biased results. We address this pitfall
by introducing a Gaussian prior derived from a vocal preset dataset, DiffVox,
over the parameter space. The resulting optimisation is equivalent to
maximum-a-posteriori estimation. Evaluations on vocal effects transfer on the
MedleyDB dataset show significant improvements across metrics compared to
baselines, including a blind audio effects estimator, nearest-neighbour
approaches, and uncalibrated ST-ITO. The proposed calibration reduces parameter
mean squared error by up to 33% and matches the reference style better.
Subjective evaluations with 16 participants confirm our method's superiority,
especially in limited data regimes. This work demonstrates how incorporating
prior knowledge in inference time enhances audio effects transfer, paving the
way for more effective and realistic audio processing systems.Summary
AI-Generated Summary