WildScore: Avaliação de MLLMs no Raciocínio Simbólico de Música em Contextos Reais

Resumo

Avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes em diversas tarefas de visão e linguagem. No entanto, suas habilidades de raciocínio no domínio multimodal da música simbólica permanecem amplamente inexploradas. Apresentamos o WildScore, o primeiro benchmark de raciocínio e análise multimodal de música simbólica "in-the-wild", projetado para avaliar a capacidade dos MLLMs de interpretar partituras musicais do mundo real e responder a consultas musicológicas complexas. Cada instância no WildScore é proveniente de composições musicais genuínas e acompanhada por perguntas e discussões autênticas geradas por usuários, capturando as nuances da análise musical prática. Para facilitar a avaliação sistemática, propomos uma taxonomia sistemática, composta por ontologias musicológicas de alto nível e detalhadas. Além disso, estruturamos o raciocínio musical complexo como uma tarefa de resposta a perguntas de múltipla escolha, permitindo uma avaliação controlada e escalável da compreensão de música simbólica pelos MLLMs. O benchmarking empírico de MLLMs state-of-the-art no WildScore revela padrões intrigantes em seu raciocínio visual-simbólico, destacando tanto direções promissoras quanto desafios persistentes para os MLLMs no raciocínio e análise de música simbólica. Disponibilizamos o conjunto de dados e o código.

English

Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, their reasoning abilities in the multimodal symbolic music domain remain largely unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to interpret real-world music scores and answer complex musicological queries. Each instance in WildScore is sourced from genuine musical compositions and accompanied by authentic user-generated questions and discussions, capturing the intricacies of practical music analysis. To facilitate systematic evaluation, we propose a systematic taxonomy, comprising both high-level and fine-grained musicological ontologies. Furthermore, we frame complex music reasoning as multiple-choice question answering, enabling controlled and scalable assessment of MLLMs' symbolic music understanding. Empirical benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns in their visual-symbolic reasoning, uncovering both promising directions and persistent challenges for MLLMs in symbolic music reasoning and analysis. We release the dataset and code.

WildScore: Avaliação de MLLMs no Raciocínio Simbólico de Música em Contextos Reais

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

Resumo

Support