CMI-Bench: Een Uitgebreide Benchmark voor het Evalueren van Muzikale Instructievolging
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
June 14, 2025
Auteurs: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
cs.AI
Samenvatting
Recente ontwikkelingen in audio-tekst grote taalmodellen (LLMs) hebben nieuwe mogelijkheden geopend voor muziekbegrip en -generatie. Bestaande benchmarks zijn echter beperkt in reikwijdte en vertrouwen vaak op vereenvoudigde taken of meerkeuzeevaluaties die de complexiteit van real-world muziekanalyse niet weerspiegelen. We herinterpreteren een breed scala aan traditionele MIR-annotaties als instructievolgformaten en introduceren CMI-Bench, een uitgebreide muziekinstructievolgbenchmark ontworpen om audio-tekst LLMs te evalueren op een diverse set van muziekinformatie-retrieval (MIR) taken. Deze omvatten genreclassificatie, emotieregressie, emotietagging, instrumentclassificatie, toonhoogteschatting, toonsoortdetectie, lyricstranscriptie, melodie-extractie, vocale techniekherkenning, instrumentuitvoeringstechniekdetectie, muziektagging, muziekbeschrijving en (down)beat tracking: kernuitdagingen in MIR-onderzoek weerspiegelend. In tegenstelling tot eerdere benchmarks, neemt CMI-Bench gestandaardiseerde evaluatiemetrics over die consistent zijn met eerdere state-of-the-art MIR-modellen, waardoor directe vergelijkbaarheid met gesuperviseerde benaderingen wordt gegarandeerd. We bieden een evaluatietoolkit die alle open-source audio-tekstuele LLMs ondersteunt, waaronder LTU, Qwen-audio, SALMONN, MusiLingo, enz. Experimentele resultaten onthullen aanzienlijke prestatiekloof tussen LLMs en gesuperviseerde modellen, evenals hun culturele, chronologische en gendervooroordelen, wat de potentie en beperkingen van huidige modellen in het aanpakken van MIR-taken benadrukt. CMI-Bench legt een uniforme basis voor het evalueren van muziekinstructievolging, wat de vooruitgang in muziekbewuste LLMs bevordert.
English
Recent advances in audio-text large language models (LLMs) have opened new
possibilities for music understanding and generation. However, existing
benchmarks are limited in scope, often relying on simplified tasks or
multi-choice evaluations that fail to reflect the complexity of real-world
music analysis. We reinterpret a broad range of traditional MIR annotations as
instruction-following formats and introduce CMI-Bench, a comprehensive music
instruction following benchmark designed to evaluate audio-text LLMs on a
diverse set of music information retrieval (MIR) tasks. These include genre
classification, emotion regression, emotion tagging, instrument classification,
pitch estimation, key detection, lyrics transcription, melody extraction, vocal
technique recognition, instrument performance technique detection, music
tagging, music captioning, and (down)beat tracking: reflecting core challenges
in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized
evaluation metrics consistent with previous state-of-the-art MIR models,
ensuring direct comparability with supervised approaches. We provide an
evaluation toolkit supporting all open-source audio-textual LLMs, including
LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant
performance gaps between LLMs and supervised models, along with their culture,
chronological and gender bias, highlighting the potential and limitations of
current models in addressing MIR tasks. CMI-Bench establishes a unified
foundation for evaluating music instruction following, driving progress in
music-aware LLMs.