MERIT: Het Leren van Ontwarde Muziekrepresentaties voor Audiogelijkenis
MERIT: Learning Disentangled Music Representations for Audio Similarity
May 26, 2026
Auteurs: Abhinaba Roy, Junyi Liang, Dorien Herremans
cs.AI
Samenvatting
Huidige modellen voor muziekgelijkenis berekenen doorgaans een enkele, monolitische score, waarbij verschillende muzikale dimensies zoals melodie, ritme en timbre door elkaar worden gehaald. Dit beperkt de gebruikerscontrole en interpreteerbaarheid, waardoor het onmogelijk is om genuanceerde zoekopdrachten uit te voeren. We introduceren MERIT, een raamwerk voor het leren van ontwarrende, factorspecifieke muziekrepresentaties die zijn afgestemd op deze drie kerndimensies. Om het gebrek aan geïsoleerde muzikale variaties in echte audiobestanden te overwinnen, gebruiken we een nieuwe trainingsstrategie die gebruikmaakt van conditionele audiogeneratie en bron-gescheiden stems om enkelvoudige factorvariatie in de trainingsdata sterk aan te moedigen. Onze evaluaties tonen sterke factorgewijze ontwarring aan. Elke kop reageert sterk op de beoogde perceptuele dimensie terwijl deze bij toeval blijft op de andere dimensies, een representatieve eigenschap die geldt voor zowel het synthetische trainingsdomein als onafhankelijke echte audiobestanden.
English
Current music similarity models typically compute a single, monolithic score, entangling distinct musical dimensions like melody, rhythm, and timbre. This limits user control and interpretability, making it impossible to execute nuanced queries. We introduce MERIT, a framework for learning disentangled, factor-specific music representations tailored to these three core dimensions. To overcome the lack of isolated musical variations in real-world audio, we use a novel training strategy that uses conditional audio generation and source-separated stems to strongly encourage single-factor variation in training data. Our evaluations demonstrate strong factor-wise disentanglement. Each head responds strongly to its intended perceptual dimension while remaining near chance on the others, a representational property that holds across both the synthetic training domain and independent real-world audio.