MERIT : Apprentissage de représentations musicales désentrelacées pour la similarité audio

Résumé

Les modèles actuels de similarité musicale calculent généralement un score unique et monolithique, entremêlant des dimensions musicales distinctes telles que la mélodie, le rythme et le timbre. Cela limite le contrôle de l'utilisateur et l'interprétabilité, rendant impossible l'exécution de requêtes nuancées. Nous présentons MERIT, un cadre d'apprentissage de représentations musicales désintriquées et spécifiques à chaque facteur, adapté à ces trois dimensions fondamentales. Pour pallier l'absence de variations musicales isolées dans l'audio réel, nous utilisons une stratégie d'entraînement innovante qui recourt à la génération audio conditionnelle et à des pistes séparées par source afin de favoriser fortement les variations à facteur unique dans les données d'entraînement. Nos évaluations démontrent un fort désintrication par facteur. Chaque tête répond fortement à sa dimension perceptive prévue tout en restant proche du hasard pour les autres, une propriété représentationnelle qui se maintient à la fois dans le domaine d'entraînement synthétique et dans l'audio réel indépendant.

English

Current music similarity models typically compute a single, monolithic score, entangling distinct musical dimensions like melody, rhythm, and timbre. This limits user control and interpretability, making it impossible to execute nuanced queries. We introduce MERIT, a framework for learning disentangled, factor-specific music representations tailored to these three core dimensions. To overcome the lack of isolated musical variations in real-world audio, we use a novel training strategy that uses conditional audio generation and source-separated stems to strongly encourage single-factor variation in training data. Our evaluations demonstrate strong factor-wise disentanglement. Each head responds strongly to its intended perceptual dimension while remaining near chance on the others, a representational property that holds across both the synthetic training domain and independent real-world audio.