WildScore : Évaluation des MLLM dans le raisonnement symbolique de la musique en conditions réelles
WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
September 5, 2025
papers.authors: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu
cs.AI
papers.abstract
Les récentes avancées dans les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont démontré des capacités impressionnantes dans diverses tâches visuelles et linguistiques. Cependant, leurs aptitudes de raisonnement dans le domaine de la musique symbolique multimodale restent largement inexplorées. Nous présentons WildScore, le premier benchmark de raisonnement et d'analyse de musique symbolique multimodale en conditions réelles, conçu pour évaluer la capacité des MLLMs à interpréter des partitions musicales du monde réel et à répondre à des questions musicologiques complexes. Chaque instance de WildScore est issue de compositions musicales authentiques et accompagnée de questions et discussions générées par des utilisateurs, capturant ainsi les subtilités de l'analyse musicale pratique. Pour faciliter une évaluation systématique, nous proposons une taxonomie systématique, comprenant des ontologies musicologiques à la fois de haut niveau et granulaires. De plus, nous formulons le raisonnement musical complexe sous forme de questions à choix multiples, permettant une évaluation contrôlée et scalable de la compréhension de la musique symbolique par les MLLMs. Le benchmarking empirique des MLLMs de pointe sur WildScore révèle des schémas intrigants dans leur raisonnement visuel-symbolique, mettant en lumière à la fois des directions prometteuses et des défis persistants pour les MLLMs dans le raisonnement et l'analyse de la musique symbolique. Nous rendons publics le jeu de données et le code.
English
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated
impressive capabilities across various vision-language tasks. However, their
reasoning abilities in the multimodal symbolic music domain remain largely
unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic
music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to
interpret real-world music scores and answer complex musicological queries.
Each instance in WildScore is sourced from genuine musical compositions and
accompanied by authentic user-generated questions and discussions, capturing
the intricacies of practical music analysis. To facilitate systematic
evaluation, we propose a systematic taxonomy, comprising both high-level and
fine-grained musicological ontologies. Furthermore, we frame complex music
reasoning as multiple-choice question answering, enabling controlled and
scalable assessment of MLLMs' symbolic music understanding. Empirical
benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns
in their visual-symbolic reasoning, uncovering both promising directions and
persistent challenges for MLLMs in symbolic music reasoning and analysis. We
release the dataset and code.