WildScore: Evaluación de MLLMs en el Razonamiento Simbólico de Música en Contextos Naturales
WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
September 5, 2025
Autores: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu
cs.AI
Resumen
Los avances recientes en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en diversas tareas de visión y lenguaje. Sin embargo, sus habilidades de razonamiento en el dominio multimodal de la música simbólica siguen siendo en gran medida inexploradas. Presentamos WildScore, el primer punto de referencia de razonamiento y análisis multimodal de música simbólica en entornos reales, diseñado para evaluar la capacidad de los MLLMs para interpretar partituras musicales del mundo real y responder a consultas musicológicas complejas. Cada instancia en WildScore proviene de composiciones musicales genuinas y está acompañada de preguntas y discusiones auténticas generadas por usuarios, capturando las complejidades del análisis musical práctico. Para facilitar una evaluación sistemática, proponemos una taxonomía sistemática que comprende ontologías musicológicas tanto de alto nivel como detalladas. Además, enmarcamos el razonamiento musical complejo como una tarea de respuesta a preguntas de opción múltiple, permitiendo una evaluación controlada y escalable de la comprensión de la música simbólica por parte de los MLLMs. La evaluación empírica de los MLLMs más avanzados en WildScore revela patrones intrigantes en su razonamiento visual-simbólico, descubriendo tanto direcciones prometedoras como desafíos persistentes para los MLLMs en el razonamiento y análisis de la música simbólica. Publicamos el conjunto de datos y el código.
English
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated
impressive capabilities across various vision-language tasks. However, their
reasoning abilities in the multimodal symbolic music domain remain largely
unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic
music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to
interpret real-world music scores and answer complex musicological queries.
Each instance in WildScore is sourced from genuine musical compositions and
accompanied by authentic user-generated questions and discussions, capturing
the intricacies of practical music analysis. To facilitate systematic
evaluation, we propose a systematic taxonomy, comprising both high-level and
fine-grained musicological ontologies. Furthermore, we frame complex music
reasoning as multiple-choice question answering, enabling controlled and
scalable assessment of MLLMs' symbolic music understanding. Empirical
benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns
in their visual-symbolic reasoning, uncovering both promising directions and
persistent challenges for MLLMs in symbolic music reasoning and analysis. We
release the dataset and code.