WildScore: Valutazione dei Modelli Multimodali di Apprendimento per il Ragionamento Simbolico Musicale in Contesti Reali
WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
September 5, 2025
Autori: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità impressionanti in vari compiti di visione e linguaggio. Tuttavia, le loro abilità di ragionamento nel dominio della musica simbolica multimodale rimangono in gran parte inesplorate. Introduciamo WildScore, il primo benchmark di ragionamento e analisi della musica simbolica multimodale "in-the-wild", progettato per valutare la capacità degli MLLMs di interpretare partiture musicali del mondo reale e rispondere a complesse domande musicologiche. Ogni istanza in WildScore è tratta da composizioni musicali autentiche ed è accompagnata da domande e discussioni generate dagli utenti, catturando le complessità dell'analisi musicale pratica. Per facilitare una valutazione sistematica, proponiamo una tassonomia sistematica, comprendente ontologie musicologiche sia di alto livello che dettagliate. Inoltre, inquadriamo il ragionamento musicale complesso come risposta a domande a scelta multipla, consentendo una valutazione controllata e scalabile della comprensione della musica simbolica da parte degli MLLMs. Il benchmarking empirico degli MLLMs più avanzati su WildScore rivela modelli interessanti nel loro ragionamento visivo-simbolico, evidenziando sia direzioni promettenti che sfide persistenti per gli MLLMs nel ragionamento e nell'analisi della musica simbolica. Rilasciamo il dataset e il codice.
English
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated
impressive capabilities across various vision-language tasks. However, their
reasoning abilities in the multimodal symbolic music domain remain largely
unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic
music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to
interpret real-world music scores and answer complex musicological queries.
Each instance in WildScore is sourced from genuine musical compositions and
accompanied by authentic user-generated questions and discussions, capturing
the intricacies of practical music analysis. To facilitate systematic
evaluation, we propose a systematic taxonomy, comprising both high-level and
fine-grained musicological ontologies. Furthermore, we frame complex music
reasoning as multiple-choice question answering, enabling controlled and
scalable assessment of MLLMs' symbolic music understanding. Empirical
benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns
in their visual-symbolic reasoning, uncovering both promising directions and
persistent challenges for MLLMs in symbolic music reasoning and analysis. We
release the dataset and code.