WildScore: Avaliação de MLLMs no Raciocínio Simbólico de Música em Contextos Reais
WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
September 5, 2025
Autores: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu
cs.AI
Resumo
Avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes em diversas tarefas de visão e linguagem. No entanto, suas habilidades de raciocínio no domínio multimodal da música simbólica permanecem amplamente inexploradas. Apresentamos o WildScore, o primeiro benchmark de raciocínio e análise multimodal de música simbólica "in-the-wild", projetado para avaliar a capacidade dos MLLMs de interpretar partituras musicais do mundo real e responder a consultas musicológicas complexas. Cada instância no WildScore é proveniente de composições musicais genuínas e acompanhada por perguntas e discussões autênticas geradas por usuários, capturando as nuances da análise musical prática. Para facilitar a avaliação sistemática, propomos uma taxonomia sistemática, composta por ontologias musicológicas de alto nível e detalhadas. Além disso, estruturamos o raciocínio musical complexo como uma tarefa de resposta a perguntas de múltipla escolha, permitindo uma avaliação controlada e escalável da compreensão de música simbólica pelos MLLMs. O benchmarking empírico de MLLMs state-of-the-art no WildScore revela padrões intrigantes em seu raciocínio visual-simbólico, destacando tanto direções promissoras quanto desafios persistentes para os MLLMs no raciocínio e análise de música simbólica. Disponibilizamos o conjunto de dados e o código.
English
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated
impressive capabilities across various vision-language tasks. However, their
reasoning abilities in the multimodal symbolic music domain remain largely
unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic
music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to
interpret real-world music scores and answer complex musicological queries.
Each instance in WildScore is sourced from genuine musical compositions and
accompanied by authentic user-generated questions and discussions, capturing
the intricacies of practical music analysis. To facilitate systematic
evaluation, we propose a systematic taxonomy, comprising both high-level and
fine-grained musicological ontologies. Furthermore, we frame complex music
reasoning as multiple-choice question answering, enabling controlled and
scalable assessment of MLLMs' symbolic music understanding. Empirical
benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns
in their visual-symbolic reasoning, uncovering both promising directions and
persistent challenges for MLLMs in symbolic music reasoning and analysis. We
release the dataset and code.