ChatPaper.aiChatPaper

DiffVox: Um Modelo Diferenciável para Captura e Análise de Distribuições de Efeitos Profissionais

DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions

April 20, 2025
Autores: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji
cs.AI

Resumo

Este estudo apresenta um modelo novo e interpretável, o DiffVox, para a correspondência de efeitos vocais na produção musical. O DiffVox, abreviação de "Differentiable Vocal Fx", integra equalização paramétrica, controle de faixa dinâmica, delay e reverberação com implementações diferenciáveis eficientes, permitindo a otimização baseada em gradientes para a estimativa de parâmetros. Os presets vocais são recuperados de dois conjuntos de dados, compreendendo 70 faixas do MedleyDB e 365 faixas de uma coleção privada. A análise das correlações de parâmetros destaca relações fortes entre efeitos e parâmetros, como os filtros high-pass e low-shelf que frequentemente atuam em conjunto para moldar as frequências graves, e o tempo de delay que se correlaciona com a intensidade dos sinais atrasados. A análise de componentes principais revela conexões com as dimensões de timbre de McAdams, onde o componente mais crucial modula a percepção de espacialidade, enquanto os componentes secundários influenciam o brilho espectral. Testes estatísticos confirmam a natureza não Gaussiana da distribuição de parâmetros, destacando a complexidade do espaço de efeitos vocais. Esses achados iniciais sobre as distribuições de parâmetros estabelecem a base para pesquisas futuras em modelagem de efeitos vocais e mixagem automática. Nosso código-fonte e conjuntos de dados estão acessíveis em https://github.com/SonyResearch/diffvox.
English
This study introduces a novel and interpretable model, DiffVox, for matching vocal effects in music production. DiffVox, short for ``Differentiable Vocal Fx", integrates parametric equalisation, dynamic range control, delay, and reverb with efficient differentiable implementations to enable gradient-based optimisation for parameter estimation. Vocal presets are retrieved from two datasets, comprising 70 tracks from MedleyDB and 365 tracks from a private collection. Analysis of parameter correlations highlights strong relationships between effects and parameters, such as the high-pass and low-shelf filters often behaving together to shape the low end, and the delay time correlates with the intensity of the delayed signals. Principal component analysis reveals connections to McAdams' timbre dimensions, where the most crucial component modulates the perceived spaciousness while the secondary components influence spectral brightness. Statistical testing confirms the non-Gaussian nature of the parameter distribution, highlighting the complexity of the vocal effects space. These initial findings on the parameter distributions set the foundation for future research in vocal effects modelling and automatic mixing. Our source code and datasets are accessible at https://github.com/SonyResearch/diffvox.

Summary

AI-Generated Summary

PDF22April 23, 2025