WildScore: Оценка способностей мультимодальных языковых моделей к символическому музыкальному мышлению в реальных условиях
WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
September 5, 2025
Авторы: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали впечатляющие возможности в различных задачах, связанных с обработкой визуальной и текстовой информации. Однако их способности к рассуждению в мультимодальной области символической музыки остаются в значительной степени неисследованными. Мы представляем WildScore — первый в своем роде бенчмарк для анализа и рассуждений в области символической музыки, основанный на реальных данных, который предназначен для оценки способности MLLMs интерпретировать реальные музыкальные партитуры и отвечать на сложные музыковедческие вопросы. Каждый пример в WildScore взят из подлинных музыкальных произведений и сопровождается аутентичными вопросами и обсуждениями, созданными пользователями, что позволяет уловить тонкости практического анализа музыки. Для обеспечения систематической оценки мы предлагаем систематическую таксономию, включающую как высокоуровневые, так и детализированные музыковедческие онтологии. Кроме того, мы формулируем сложные музыкальные рассуждения в виде задач с множественным выбором, что позволяет проводить контролируемую и масштабируемую оценку понимания MLLMs символической музыки. Эмпирическое тестирование современных MLLMs на WildScore выявило интересные закономерности в их визуально-символическом рассуждении, раскрывая как перспективные направления, так и сохраняющиеся проблемы для MLLMs в области анализа и рассуждений о символической музыке. Мы публикуем набор данных и код.
English
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated
impressive capabilities across various vision-language tasks. However, their
reasoning abilities in the multimodal symbolic music domain remain largely
unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic
music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to
interpret real-world music scores and answer complex musicological queries.
Each instance in WildScore is sourced from genuine musical compositions and
accompanied by authentic user-generated questions and discussions, capturing
the intricacies of practical music analysis. To facilitate systematic
evaluation, we propose a systematic taxonomy, comprising both high-level and
fine-grained musicological ontologies. Furthermore, we frame complex music
reasoning as multiple-choice question answering, enabling controlled and
scalable assessment of MLLMs' symbolic music understanding. Empirical
benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns
in their visual-symbolic reasoning, uncovering both promising directions and
persistent challenges for MLLMs in symbolic music reasoning and analysis. We
release the dataset and code.