ChatPaper.aiChatPaper

MuChoMusic : Évaluation de la compréhension musicale dans les modèles multimodaux audio-langage

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

August 2, 2024
Auteurs: Benno Weck, Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas, Dmitry Bogdanov
cs.AI

Résumé

Les modèles multimodaux qui traitent conjointement l'audio et le langage offrent un potentiel considérable pour la compréhension audio et sont de plus en plus adoptés dans le domaine musical. En permettant aux utilisateurs d'interroger via du texte et d'obtenir des informations sur un fichier audio donné, ces modèles ont la capacité de faciliter une variété de tâches de compréhension musicale grâce à des interfaces basées sur le langage. Cependant, leur évaluation présente des défis importants, et il reste incertain comment évaluer efficacement leur capacité à interpréter correctement des entrées liées à la musique avec les méthodes actuelles. Motivés par cela, nous introduisons MuChoMusic, un benchmark pour évaluer la compréhension musicale dans les modèles de langage multimodaux axés sur l'audio. MuChoMusic comprend 1 187 questions à choix multiples, toutes validées par des annotateurs humains, portant sur 644 morceaux de musique issus de deux ensembles de données musicales publiquement disponibles, et couvrant une grande variété de genres. Les questions du benchmark sont conçues pour évaluer les connaissances et les capacités de raisonnement à travers plusieurs dimensions qui couvrent des concepts musicaux fondamentaux et leur relation avec des contextes culturels et fonctionnels. Grâce à l'analyse holistique permise par le benchmark, nous évaluons cinq modèles open-source et identifions plusieurs écueils, notamment une dépendance excessive à la modalité langagière, soulignant la nécessité d'une meilleure intégration multimodale. Les données et le code sont open-source.
English
Multimodal models that jointly process audio and language hold great promise in audio understanding and are increasingly being adopted in the music domain. By allowing users to query via text and obtain information about a given audio input, these models have the potential to enable a variety of music understanding tasks via language-based interfaces. However, their evaluation poses considerable challenges, and it remains unclear how to effectively assess their ability to correctly interpret music-related inputs with current methods. Motivated by this, we introduce MuChoMusic, a benchmark for evaluating music understanding in multimodal language models focused on audio. MuChoMusic comprises 1,187 multiple-choice questions, all validated by human annotators, on 644 music tracks sourced from two publicly available music datasets, and covering a wide variety of genres. Questions in the benchmark are crafted to assess knowledge and reasoning abilities across several dimensions that cover fundamental musical concepts and their relation to cultural and functional contexts. Through the holistic analysis afforded by the benchmark, we evaluate five open-source models and identify several pitfalls, including an over-reliance on the language modality, pointing to a need for better multimodal integration. Data and code are open-sourced.

Summary

AI-Generated Summary

PDF122November 28, 2024