DiffVox : Un modèle différentiable pour la capture et l'analyse des distributions d'effets professionnels
DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions
April 20, 2025
Auteurs: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji
cs.AI
Résumé
Cette étude présente un nouveau modèle interprétable, DiffVox, pour l'appariement des effets vocaux dans la production musicale. DiffVox, abréviation de « Differentiable Vocal Fx », intègre l'égalisation paramétrique, le contrôle de la dynamique, le délai et la réverbération avec des implémentations différentiables efficaces, permettant ainsi une optimisation basée sur le gradient pour l'estimation des paramètres. Les préréglages vocaux sont extraits de deux ensembles de données, comprenant 70 pistes de MedleyDB et 365 pistes d'une collection privée. L'analyse des corrélations entre paramètres met en évidence des relations fortes entre les effets et les paramètres, comme les filtres passe-haut et étagère basse qui agissent souvent ensemble pour façonner les basses fréquences, et le temps de délai qui est corrélé à l'intensité des signaux retardés. L'analyse en composantes principales révèle des liens avec les dimensions timbrales de McAdams, où la composante principale module la perception de l'espace tandis que les composantes secondaires influencent la brillance spectrale. Les tests statistiques confirment la nature non gaussienne de la distribution des paramètres, soulignant la complexité de l'espace des effets vocaux. Ces premiers résultats sur les distributions de paramètres posent les bases pour des recherches futures sur la modélisation des effets vocaux et le mixage automatique. Notre code source et les ensembles de données sont accessibles à l'adresse https://github.com/SonyResearch/diffvox.
English
This study introduces a novel and interpretable model, DiffVox, for matching
vocal effects in music production. DiffVox, short for ``Differentiable Vocal
Fx", integrates parametric equalisation, dynamic range control, delay, and
reverb with efficient differentiable implementations to enable gradient-based
optimisation for parameter estimation. Vocal presets are retrieved from two
datasets, comprising 70 tracks from MedleyDB and 365 tracks from a private
collection. Analysis of parameter correlations highlights strong relationships
between effects and parameters, such as the high-pass and low-shelf filters
often behaving together to shape the low end, and the delay time correlates
with the intensity of the delayed signals. Principal component analysis reveals
connections to McAdams' timbre dimensions, where the most crucial component
modulates the perceived spaciousness while the secondary components influence
spectral brightness. Statistical testing confirms the non-Gaussian nature of
the parameter distribution, highlighting the complexity of the vocal effects
space. These initial findings on the parameter distributions set the foundation
for future research in vocal effects modelling and automatic mixing. Our source
code and datasets are accessible at https://github.com/SonyResearch/diffvox.Summary
AI-Generated Summary