WildScore: Valutazione dei Modelli Multimodali di Apprendimento per il Ragionamento Simbolico Musicale in Contesti Reali

Abstract

I recenti progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità impressionanti in vari compiti di visione e linguaggio. Tuttavia, le loro abilità di ragionamento nel dominio della musica simbolica multimodale rimangono in gran parte inesplorate. Introduciamo WildScore, il primo benchmark di ragionamento e analisi della musica simbolica multimodale "in-the-wild", progettato per valutare la capacità degli MLLMs di interpretare partiture musicali del mondo reale e rispondere a complesse domande musicologiche. Ogni istanza in WildScore è tratta da composizioni musicali autentiche ed è accompagnata da domande e discussioni generate dagli utenti, catturando le complessità dell'analisi musicale pratica. Per facilitare una valutazione sistematica, proponiamo una tassonomia sistematica, comprendente ontologie musicologiche sia di alto livello che dettagliate. Inoltre, inquadriamo il ragionamento musicale complesso come risposta a domande a scelta multipla, consentendo una valutazione controllata e scalabile della comprensione della musica simbolica da parte degli MLLMs. Il benchmarking empirico degli MLLMs più avanzati su WildScore rivela modelli interessanti nel loro ragionamento visivo-simbolico, evidenziando sia direzioni promettenti che sfide persistenti per gli MLLMs nel ragionamento e nell'analisi della musica simbolica. Rilasciamo il dataset e il codice.

English

Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, their reasoning abilities in the multimodal symbolic music domain remain largely unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to interpret real-world music scores and answer complex musicological queries. Each instance in WildScore is sourced from genuine musical compositions and accompanied by authentic user-generated questions and discussions, capturing the intricacies of practical music analysis. To facilitate systematic evaluation, we propose a systematic taxonomy, comprising both high-level and fine-grained musicological ontologies. Furthermore, we frame complex music reasoning as multiple-choice question answering, enabling controlled and scalable assessment of MLLMs' symbolic music understanding. Empirical benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns in their visual-symbolic reasoning, uncovering both promising directions and persistent challenges for MLLMs in symbolic music reasoning and analysis. We release the dataset and code.

WildScore: Valutazione dei Modelli Multimodali di Apprendimento per il Ragionamento Simbolico Musicale in Contesti Reali

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

Abstract

Support