DiffVox: Un Modelo Diferenciable para Capturar y Analizar Distribuciones de Efectos Profesionales
DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions
April 20, 2025
Autores: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji
cs.AI
Resumen
Este estudio presenta un modelo novedoso e interpretable, DiffVox, para la coincidencia de efectos vocales en la producción musical. DiffVox, abreviatura de "Differentiable Vocal Fx", integra ecualización paramétrica, control de rango dinámico, delay y reverberación con implementaciones diferenciables eficientes para permitir la optimización basada en gradientes para la estimación de parámetros. Los preajustes vocales se recuperan de dos conjuntos de datos, que comprenden 70 pistas de MedleyDB y 365 pistas de una colección privada. El análisis de las correlaciones de parámetros destaca fuertes relaciones entre los efectos y los parámetros, como los filtros de paso alto y estante bajo que a menudo actúan juntos para dar forma a los graves, y el tiempo de delay que se correlaciona con la intensidad de las señales retardadas. El análisis de componentes principales revela conexiones con las dimensiones de timbre de McAdams, donde el componente más crucial modula la percepción de espacialidad, mientras que los componentes secundarios influyen en el brillo espectral. Las pruebas estadísticas confirman la naturaleza no gaussiana de la distribución de parámetros, destacando la complejidad del espacio de efectos vocales. Estos hallazgos iniciales sobre las distribuciones de parámetros sientan las bases para futuras investigaciones en modelado de efectos vocales y mezcla automática. Nuestro código fuente y conjuntos de datos están accesibles en https://github.com/SonyResearch/diffvox.
English
This study introduces a novel and interpretable model, DiffVox, for matching
vocal effects in music production. DiffVox, short for ``Differentiable Vocal
Fx", integrates parametric equalisation, dynamic range control, delay, and
reverb with efficient differentiable implementations to enable gradient-based
optimisation for parameter estimation. Vocal presets are retrieved from two
datasets, comprising 70 tracks from MedleyDB and 365 tracks from a private
collection. Analysis of parameter correlations highlights strong relationships
between effects and parameters, such as the high-pass and low-shelf filters
often behaving together to shape the low end, and the delay time correlates
with the intensity of the delayed signals. Principal component analysis reveals
connections to McAdams' timbre dimensions, where the most crucial component
modulates the perceived spaciousness while the secondary components influence
spectral brightness. Statistical testing confirms the non-Gaussian nature of
the parameter distribution, highlighting the complexity of the vocal effects
space. These initial findings on the parameter distributions set the foundation
for future research in vocal effects modelling and automatic mixing. Our source
code and datasets are accessible at https://github.com/SonyResearch/diffvox.Summary
AI-Generated Summary