DiffVox: Un Modello Differenziabile per la Cattura e l'Analisi delle Distribuzioni degli Effetti Professionali
DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions
April 20, 2025
Autori: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji
cs.AI
Abstract
Questo studio introduce un modello innovativo e interpretabile, DiffVox, per l'adeguamento degli effetti vocali nella produzione musicale. DiffVox, abbreviazione di "Differentiable Vocal Fx", integra equalizzazione parametrica, controllo della gamma dinamica, delay e riverbero con implementazioni efficienti e differenziabili, consentendo l'ottimizzazione basata su gradienti per la stima dei parametri. I preset vocali sono estratti da due dataset, comprendenti 70 tracce da MedleyDB e 365 tracce da una collezione privata. L'analisi delle correlazioni dei parametri evidenzia forti relazioni tra effetti e parametri, come i filtri high-pass e low-shelf che spesso agiscono insieme per modellare le frequenze basse, e il tempo di delay che si correla con l'intensità dei segnali ritardati. L'analisi delle componenti principali rivela connessioni con le dimensioni del timbro di McAdams, dove la componente più cruciale modula la percezione di spazialità, mentre le componenti secondarie influenzano la brillantezza spettrale. I test statistici confermano la natura non-Gaussiana della distribuzione dei parametri, sottolineando la complessità dello spazio degli effetti vocali. Questi risultati iniziali sulle distribuzioni dei parametri pongono le basi per future ricerche nella modellazione degli effetti vocali e nel mixing automatico. Il nostro codice sorgente e i dataset sono accessibili all'indirizzo https://github.com/SonyResearch/diffvox.
English
This study introduces a novel and interpretable model, DiffVox, for matching
vocal effects in music production. DiffVox, short for ``Differentiable Vocal
Fx", integrates parametric equalisation, dynamic range control, delay, and
reverb with efficient differentiable implementations to enable gradient-based
optimisation for parameter estimation. Vocal presets are retrieved from two
datasets, comprising 70 tracks from MedleyDB and 365 tracks from a private
collection. Analysis of parameter correlations highlights strong relationships
between effects and parameters, such as the high-pass and low-shelf filters
often behaving together to shape the low end, and the delay time correlates
with the intensity of the delayed signals. Principal component analysis reveals
connections to McAdams' timbre dimensions, where the most crucial component
modulates the perceived spaciousness while the secondary components influence
spectral brightness. Statistical testing confirms the non-Gaussian nature of
the parameter distribution, highlighting the complexity of the vocal effects
space. These initial findings on the parameter distributions set the foundation
for future research in vocal effects modelling and automatic mixing. Our source
code and datasets are accessible at https://github.com/SonyResearch/diffvox.