ChatPaper.aiChatPaper

CMI-Bench: Ein umfassender Benchmark zur Bewertung von Musikunterricht

CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

June 14, 2025
Autoren: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
cs.AI

Zusammenfassung

Jüngste Fortschritte bei Audio-Text-Großsprachmodellen (LLMs) haben neue Möglichkeiten für das Verständnis und die Generierung von Musik eröffnet. Allerdings sind bestehende Benchmarks in ihrem Umfang begrenzt und stützen sich oft auf vereinfachte Aufgaben oder Multiple-Choice-Bewertungen, die die Komplexität der realen Musikanalyse nicht widerspiegeln. Wir interpretieren eine breite Palette traditioneller MIR-Annotationen in Instruktionsfolgeformate um und führen CMI-Bench ein, einen umfassenden Benchmark für die Befolgung von Musikinstruktionen, der entwickelt wurde, um Audio-Text-LLMs anhand einer Vielzahl von Aufgaben zur Musikinformationsgewinnung (MIR) zu bewerten. Dazu gehören Genreklassifizierung, Emotionsregression, Emotionstagging, Instrumentenklassifizierung, Tonhöhenschätzung, Tonartenerkennung, Liedtexttranskription, Melodieextraktion, Erkennung von Gesangstechniken, Erkennung von Instrumentenspieltechniken, Musiktagging, Musikkaptionierung und (Down)Beat-Tracking: Kernherausforderungen der MIR-Forschung. Im Gegensatz zu früheren Benchmarks verwendet CMI-Bench standardisierte Bewertungsmetriken, die mit früheren State-of-the-Art-MIR-Modellen konsistent sind, und gewährleistet so eine direkte Vergleichbarkeit mit überwachten Ansätzen. Wir stellen ein Bewertungstoolkit zur Verfügung, das alle Open-Source-Audio-Text-LLMs unterstützt, darunter LTU, Qwen-audio, SALMONN, MusiLingo usw. Die experimentellen Ergebnisse zeigen erhebliche Leistungsunterschiede zwischen LLMs und überwachten Modellen sowie deren kulturelle, chronologische und geschlechtsspezifische Verzerrungen, was die Potenziale und Grenzen aktueller Modelle bei der Bewältigung von MIR-Aufgaben verdeutlicht. CMI-Bench schafft eine einheitliche Grundlage für die Bewertung der Befolgung von Musikinstruktionen und treibt den Fortschritt bei musikbewussten LLMs voran.
English
Recent advances in audio-text large language models (LLMs) have opened new possibilities for music understanding and generation. However, existing benchmarks are limited in scope, often relying on simplified tasks or multi-choice evaluations that fail to reflect the complexity of real-world music analysis. We reinterpret a broad range of traditional MIR annotations as instruction-following formats and introduce CMI-Bench, a comprehensive music instruction following benchmark designed to evaluate audio-text LLMs on a diverse set of music information retrieval (MIR) tasks. These include genre classification, emotion regression, emotion tagging, instrument classification, pitch estimation, key detection, lyrics transcription, melody extraction, vocal technique recognition, instrument performance technique detection, music tagging, music captioning, and (down)beat tracking: reflecting core challenges in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized evaluation metrics consistent with previous state-of-the-art MIR models, ensuring direct comparability with supervised approaches. We provide an evaluation toolkit supporting all open-source audio-textual LLMs, including LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant performance gaps between LLMs and supervised models, along with their culture, chronological and gender bias, highlighting the potential and limitations of current models in addressing MIR tasks. CMI-Bench establishes a unified foundation for evaluating music instruction following, driving progress in music-aware LLMs.
PDF472June 18, 2025