MERIT: Aprendizaje de Representaciones Musicales Desenredadas para la Similitud de Audio

Resumen

Los modelos actuales de similitud musical suelen calcular una puntuación única y monolítica, enredando dimensiones musicales distintas como la melodía, el ritmo y el timbre. Esto limita el control del usuario y la interpretabilidad, imposibilitando la ejecución de consultas matizadas. Presentamos MERIT, un marco de aprendizaje de representaciones musicales desenredadas y específicas de cada factor, adaptadas a estas tres dimensiones fundamentales. Para superar la falta de variaciones musicales aisladas en el audio del mundo real, utilizamos una novedosa estrategia de entrenamiento que recurre a la generación condicional de audio y a pistas separadas por fuente (stems) para fomentar de manera decidida la variación de un solo factor en los datos de entrenamiento. Nuestras evaluaciones demuestran un fuerte desenredo por factor. Cada cabeza responde intensamente a su dimensión perceptiva prevista, mientras que se mantiene cerca del azar en las demás, una propiedad representacional que se sostiene tanto en el dominio sintético de entrenamiento como en audio independiente del mundo real.

English

Current music similarity models typically compute a single, monolithic score, entangling distinct musical dimensions like melody, rhythm, and timbre. This limits user control and interpretability, making it impossible to execute nuanced queries. We introduce MERIT, a framework for learning disentangled, factor-specific music representations tailored to these three core dimensions. To overcome the lack of isolated musical variations in real-world audio, we use a novel training strategy that uses conditional audio generation and source-separated stems to strongly encourage single-factor variation in training data. Our evaluations demonstrate strong factor-wise disentanglement. Each head responds strongly to its intended perceptual dimension while remaining near chance on the others, a representational property that holds across both the synthetic training domain and independent real-world audio.