ChatPaper.aiChatPaper

MuChoMusic: Evaluatie van muziekbegrip in multimodale audio-taalmodellen

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

August 2, 2024
Auteurs: Benno Weck, Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas, Dmitry Bogdanov
cs.AI

Samenvatting

Multimodale modellen die audio en taal gezamenlijk verwerken, bieden veelbelovende mogelijkheden voor audiobegrip en worden steeds vaker toegepast in het muziekdomein. Door gebruikers in staat te stellen via tekst te zoeken en informatie te verkrijgen over een bepaald audiofragment, hebben deze modellen het potentieel om een verscheidenheid aan muziekbegriptaken mogelijk te maken via taalgebaseerde interfaces. Hun evaluatie brengt echter aanzienlijke uitdagingen met zich mee, en het blijft onduidelijk hoe hun vermogen om muziekgerelateerde invoer correct te interpreteren effectief kan worden beoordeeld met huidige methoden. Gemotiveerd door dit probleem introduceren we MuChoMusic, een benchmark voor het evalueren van muziekbegrip in multimodale taalmodellen die zich richten op audio. MuChoMusic bestaat uit 1.187 meerkeuzevragen, allemaal gevalideerd door menselijke annotators, over 644 muziektracks afkomstig uit twee openbaar beschikbare muziekdatasets, en bestrijkt een breed scala aan genres. De vragen in de benchmark zijn ontworpen om kennis en redeneervaardigheden te beoordelen over verschillende dimensies die fundamentele muzikale concepten en hun relatie tot culturele en functionele contexten omvatten. Door de holistische analyse die de benchmark mogelijk maakt, evalueren we vijf open-source modellen en identificeren we verschillende valkuilen, waaronder een overmatige afhankelijkheid van de taalmodaliteit, wat wijst op een behoefte aan betere multimodale integratie. Data en code zijn openbaar beschikbaar.
English
Multimodal models that jointly process audio and language hold great promise in audio understanding and are increasingly being adopted in the music domain. By allowing users to query via text and obtain information about a given audio input, these models have the potential to enable a variety of music understanding tasks via language-based interfaces. However, their evaluation poses considerable challenges, and it remains unclear how to effectively assess their ability to correctly interpret music-related inputs with current methods. Motivated by this, we introduce MuChoMusic, a benchmark for evaluating music understanding in multimodal language models focused on audio. MuChoMusic comprises 1,187 multiple-choice questions, all validated by human annotators, on 644 music tracks sourced from two publicly available music datasets, and covering a wide variety of genres. Questions in the benchmark are crafted to assess knowledge and reasoning abilities across several dimensions that cover fundamental musical concepts and their relation to cultural and functional contexts. Through the holistic analysis afforded by the benchmark, we evaluate five open-source models and identify several pitfalls, including an over-reliance on the language modality, pointing to a need for better multimodal integration. Data and code are open-sourced.
PDF112February 8, 2026