MERIT: Lernen entkoppelter Musikrepräsentationen für Audio-Ähnlichkeit
MERIT: Learning Disentangled Music Representations for Audio Similarity
May 26, 2026
Autoren: Abhinaba Roy, Junyi Liang, Dorien Herremans
cs.AI
Zusammenfassung
Aktuelle Musikähnlichkeitsmodelle berechnen in der Regel einen einzigen, monolithischen Score, der verschiedene musikalische Dimensionen wie Melodie, Rhythmus und Klangfarbe vermischt. Dies schränkt die Benutzerkontrolle und Interpretierbarkeit ein und macht es unmöglich, differenzierte Abfragen durchzuführen. Wir stellen MERIT vor, ein Framework zur Erlernung entkoppelter, faktor-spezifischer Musikrepräsentationen, die auf diese drei Kerndimensionen zugeschnitten sind. Um das Fehlen isolierter musikalischer Variationen in realen Audiodaten zu überwinden, verwenden wir eine neuartige Trainingsstrategie, die bedingte Audioerzeugung und quellengetrennte Stems nutzt, um eine Variation einzelner Faktoren in den Trainingsdaten stark zu fördern. Unsere Evaluierungen zeigen eine starke faktorweise Entkopplung. Jeder Kopf reagiert stark auf seine beabsichtigte perzeptive Dimension, während er bei den anderen nahe am Zufallsniveau bleibt – eine Repräsentationseigenschaft, die sowohl in der synthetischen Trainingsdomäne als auch in unabhängigen realen Audiodaten konsistent ist.
English
Current music similarity models typically compute a single, monolithic score, entangling distinct musical dimensions like melody, rhythm, and timbre. This limits user control and interpretability, making it impossible to execute nuanced queries. We introduce MERIT, a framework for learning disentangled, factor-specific music representations tailored to these three core dimensions. To overcome the lack of isolated musical variations in real-world audio, we use a novel training strategy that uses conditional audio generation and source-separated stems to strongly encourage single-factor variation in training data. Our evaluations demonstrate strong factor-wise disentanglement. Each head responds strongly to its intended perceptual dimension while remaining near chance on the others, a representational property that holds across both the synthetic training domain and independent real-world audio.