DiffVox: Дифференцируемая модель для захвата и анализа распределений профессиональных эффектов
DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions
April 20, 2025
Авторы: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji
cs.AI
Аннотация
В данном исследовании представлена новая интерпретируемая модель DiffVox для согласования вокальных эффектов в музыкальном производстве. DiffVox, сокращение от «Differentiable Vocal Fx», объединяет параметрическую эквализацию, управление динамическим диапазоном, задержку и реверберацию с эффективными дифференцируемыми реализациями, что позволяет использовать градиентную оптимизацию для оценки параметров. Вокальные пресеты извлекаются из двух наборов данных, включающих 70 треков из MedleyDB и 365 треков из частной коллекции. Анализ корреляций параметров выявляет сильные взаимосвязи между эффектами и параметрами, например, высокочастотный и низкочастотный фильтры часто работают вместе для формирования низких частот, а время задержки коррелирует с интенсивностью задержанных сигналов. Анализ главных компонент показывает связь с измерениями тембра МакАдамса, где наиболее важный компонент модулирует воспринимаемую пространственность, а второстепенные компоненты влияют на спектральную яркость. Статистическое тестирование подтверждает не-гауссову природу распределения параметров, подчеркивая сложность пространства вокальных эффектов. Эти первоначальные результаты по распределению параметров закладывают основу для будущих исследований в области моделирования вокальных эффектов и автоматического сведения. Наш исходный код и наборы данных доступны по адресу https://github.com/SonyResearch/diffvox.
English
This study introduces a novel and interpretable model, DiffVox, for matching
vocal effects in music production. DiffVox, short for ``Differentiable Vocal
Fx", integrates parametric equalisation, dynamic range control, delay, and
reverb with efficient differentiable implementations to enable gradient-based
optimisation for parameter estimation. Vocal presets are retrieved from two
datasets, comprising 70 tracks from MedleyDB and 365 tracks from a private
collection. Analysis of parameter correlations highlights strong relationships
between effects and parameters, such as the high-pass and low-shelf filters
often behaving together to shape the low end, and the delay time correlates
with the intensity of the delayed signals. Principal component analysis reveals
connections to McAdams' timbre dimensions, where the most crucial component
modulates the perceived spaciousness while the secondary components influence
spectral brightness. Statistical testing confirms the non-Gaussian nature of
the parameter distribution, highlighting the complexity of the vocal effects
space. These initial findings on the parameter distributions set the foundation
for future research in vocal effects modelling and automatic mixing. Our source
code and datasets are accessible at https://github.com/SonyResearch/diffvox.Summary
AI-Generated Summary