ChatPaper.aiChatPaper

WildScore: 실생활 기호 음악 추론에서의 MLLM 벤치마킹

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

September 5, 2025
저자: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu
cs.AI

초록

최근 멀티모달 대형 언어 모델(MLLM)의 발전은 다양한 시각-언어 작업에서 인상적인 능력을 보여주고 있습니다. 그러나 멀티모달 기호 음악 영역에서의 추론 능력은 아직까지 크게 탐구되지 않았습니다. 본 연구에서는 실제 음악 악보를 해석하고 복잡한 음악학적 질문에 답할 수 있는 MLLM의 능력을 평가하기 위해, 최초의 실생활 멀티모달 기호 음악 추론 및 분석 벤치마크인 WildScore를 소개합니다. WildScore의 각 사례는 실제 음악 작품에서 추출되었으며, 실질적인 음악 분석의 복잡성을 담아낸 사용자 생성 질문과 토론이 함께 제공됩니다. 체계적인 평가를 위해, 우리는 고수준과 세분화된 음악학적 온톨로지를 포함한 체계적인 분류 체계를 제안합니다. 또한 복잡한 음악 추론을 객관식 질문 응답으로 프레이밍하여 MLLM의 기호 음악 이해에 대한 통제 가능하고 확장성 있는 평가를 가능하게 합니다. 최신 MLLM을 WildScore에서 벤치마킹한 결과, 시각-기호 추론에서 흥미로운 패턴이 발견되었으며, 기호 음악 추론 및 분석에서 MLLM의 유망한 방향과 지속적인 과제가 드러났습니다. 우리는 데이터셋과 코드를 공개합니다.
English
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, their reasoning abilities in the multimodal symbolic music domain remain largely unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to interpret real-world music scores and answer complex musicological queries. Each instance in WildScore is sourced from genuine musical compositions and accompanied by authentic user-generated questions and discussions, capturing the intricacies of practical music analysis. To facilitate systematic evaluation, we propose a systematic taxonomy, comprising both high-level and fine-grained musicological ontologies. Furthermore, we frame complex music reasoning as multiple-choice question answering, enabling controlled and scalable assessment of MLLMs' symbolic music understanding. Empirical benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns in their visual-symbolic reasoning, uncovering both promising directions and persistent challenges for MLLMs in symbolic music reasoning and analysis. We release the dataset and code.
PDF112September 8, 2025