ChatPaper.aiChatPaper

WildScore: Bewertung von MLLMs bei der symbolischen Musikverarbeitung in realen Umgebungen

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

September 5, 2025
papers.authors: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu
cs.AI

papers.abstract

Jüngste Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben beeindruckende Fähigkeiten in verschiedenen Vision-Sprache-Aufgaben demonstriert. Ihre Fähigkeiten im Bereich des multimodalen symbolischen Musizierens bleiben jedoch weitgehend unerforscht. Wir stellen WildScore vor, den ersten Benchmark für multimodales symbolisches Musikverständnis und -analyse in realen Anwendungen, der entwickelt wurde, um die Fähigkeit von MLLMs zu bewerten, reale Musikpartituren zu interpretieren und komplexe musikologische Fragen zu beantworten. Jede Instanz in WildScore stammt aus authentischen musikalischen Kompositionen und wird von echten, von Nutzern generierten Fragen und Diskussionen begleitet, die die Feinheiten der praktischen Musikanalyse erfassen. Um eine systematische Bewertung zu ermöglichen, schlagen wir eine systematische Taxonomie vor, die sowohl hochrangige als auch feingranulare musikologische Ontologien umfasst. Darüber hinaus formulieren wir komplexes musikalisches Verständnis als Multiple-Choice-Fragen, was eine kontrollierte und skalierbare Bewertung des symbolischen Musikverständnisses von MLLMs ermöglicht. Empirische Benchmarking-Ergebnisse von state-of-the-art MLLMs auf WildScore zeigen interessante Muster in ihrem visuell-symbolischen Denken auf und decken sowohl vielversprechende Richtungen als auch anhaltende Herausforderungen für MLLMs im Bereich des symbolischen Musikverständnisses und der -analyse auf. Wir veröffentlichen den Datensatz und den Code.
English
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, their reasoning abilities in the multimodal symbolic music domain remain largely unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to interpret real-world music scores and answer complex musicological queries. Each instance in WildScore is sourced from genuine musical compositions and accompanied by authentic user-generated questions and discussions, capturing the intricacies of practical music analysis. To facilitate systematic evaluation, we propose a systematic taxonomy, comprising both high-level and fine-grained musicological ontologies. Furthermore, we frame complex music reasoning as multiple-choice question answering, enabling controlled and scalable assessment of MLLMs' symbolic music understanding. Empirical benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns in their visual-symbolic reasoning, uncovering both promising directions and persistent challenges for MLLMs in symbolic music reasoning and analysis. We release the dataset and code.
PDF112September 8, 2025