WildScore: Bewertung von MLLMs bei der symbolischen Musikverarbeitung in realen Umgebungen
WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
September 5, 2025
papers.authors: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu
cs.AI
papers.abstract
Jüngste Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben beeindruckende Fähigkeiten in verschiedenen Vision-Sprache-Aufgaben demonstriert. Ihre Fähigkeiten im Bereich des multimodalen symbolischen Musizierens bleiben jedoch weitgehend unerforscht. Wir stellen WildScore vor, den ersten Benchmark für multimodales symbolisches Musikverständnis und -analyse in realen Anwendungen, der entwickelt wurde, um die Fähigkeit von MLLMs zu bewerten, reale Musikpartituren zu interpretieren und komplexe musikologische Fragen zu beantworten. Jede Instanz in WildScore stammt aus authentischen musikalischen Kompositionen und wird von echten, von Nutzern generierten Fragen und Diskussionen begleitet, die die Feinheiten der praktischen Musikanalyse erfassen. Um eine systematische Bewertung zu ermöglichen, schlagen wir eine systematische Taxonomie vor, die sowohl hochrangige als auch feingranulare musikologische Ontologien umfasst. Darüber hinaus formulieren wir komplexes musikalisches Verständnis als Multiple-Choice-Fragen, was eine kontrollierte und skalierbare Bewertung des symbolischen Musikverständnisses von MLLMs ermöglicht. Empirische Benchmarking-Ergebnisse von state-of-the-art MLLMs auf WildScore zeigen interessante Muster in ihrem visuell-symbolischen Denken auf und decken sowohl vielversprechende Richtungen als auch anhaltende Herausforderungen für MLLMs im Bereich des symbolischen Musikverständnisses und der -analyse auf. Wir veröffentlichen den Datensatz und den Code.
English
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated
impressive capabilities across various vision-language tasks. However, their
reasoning abilities in the multimodal symbolic music domain remain largely
unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic
music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to
interpret real-world music scores and answer complex musicological queries.
Each instance in WildScore is sourced from genuine musical compositions and
accompanied by authentic user-generated questions and discussions, capturing
the intricacies of practical music analysis. To facilitate systematic
evaluation, we propose a systematic taxonomy, comprising both high-level and
fine-grained musicological ontologies. Furthermore, we frame complex music
reasoning as multiple-choice question answering, enabling controlled and
scalable assessment of MLLMs' symbolic music understanding. Empirical
benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns
in their visual-symbolic reasoning, uncovering both promising directions and
persistent challenges for MLLMs in symbolic music reasoning and analysis. We
release the dataset and code.