CMI-Bench: 音楽指導評価のための包括的ベンチマーク
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
June 14, 2025
著者: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
cs.AI
要旨
近年、音声テキスト大規模言語モデル(LLMs)の進展により、音楽理解と生成の新たな可能性が開かれている。しかし、既存のベンチマークは範囲が限定的であり、しばしば簡略化されたタスクや多肢選択評価に依存しており、現実世界の音楽分析の複雑さを反映していない。我々は、従来の音楽情報検索(MIR)アノテーションを広範に再解釈し、指示追従形式として再構築し、CMI-Benchを導入する。CMI-Benchは、多様なMIRタスクにおいて音声テキストLLMsを評価するための包括的な音楽指示追従ベンチマークである。これには、ジャンル分類、感情回帰、感情タグ付け、楽器分類、ピッチ推定、キー検出、歌詞書き起こし、メロディ抽出、ボーカルテクニック認識、楽器演奏テクニック検出、音楽タグ付け、音楽キャプション作成、および(ダウン)ビートトラッキングが含まれ、MIR研究の中核的な課題を反映している。従来のベンチマークとは異なり、CMI-Benchは、従来の最先端MIRモデルと一貫した標準化された評価指標を採用し、教師ありアプローチとの直接的な比較を可能にしている。我々は、LTU、Qwen-audio、SALMONN、MusiLingoなど、すべてのオープンソース音声テキストLLMsをサポートする評価ツールキットを提供する。実験結果からは、LLMsと教師ありモデルとの間に顕著な性能差が明らかとなり、さらに文化的、年代的な偏りや性別バイアスも浮き彫りになり、現在のモデルがMIRタスクに取り組む上での潜在能力と限界が示された。CMI-Benchは、音楽指示追従の評価のための統一された基盤を確立し、音楽を意識したLLMsの進展を促進するものである。
English
Recent advances in audio-text large language models (LLMs) have opened new
possibilities for music understanding and generation. However, existing
benchmarks are limited in scope, often relying on simplified tasks or
multi-choice evaluations that fail to reflect the complexity of real-world
music analysis. We reinterpret a broad range of traditional MIR annotations as
instruction-following formats and introduce CMI-Bench, a comprehensive music
instruction following benchmark designed to evaluate audio-text LLMs on a
diverse set of music information retrieval (MIR) tasks. These include genre
classification, emotion regression, emotion tagging, instrument classification,
pitch estimation, key detection, lyrics transcription, melody extraction, vocal
technique recognition, instrument performance technique detection, music
tagging, music captioning, and (down)beat tracking: reflecting core challenges
in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized
evaluation metrics consistent with previous state-of-the-art MIR models,
ensuring direct comparability with supervised approaches. We provide an
evaluation toolkit supporting all open-source audio-textual LLMs, including
LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant
performance gaps between LLMs and supervised models, along with their culture,
chronological and gender bias, highlighting the potential and limitations of
current models in addressing MIR tasks. CMI-Bench establishes a unified
foundation for evaluating music instruction following, driving progress in
music-aware LLMs.