CMI-Bench : Un Benchmark Complet pour l'Évaluation de l'Instruction Musicale
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
June 14, 2025
Auteurs: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
cs.AI
Résumé
Les récentes avancées dans les modèles de langage de grande envergure (LLMs) audio-textuels ont ouvert de nouvelles possibilités pour la compréhension et la génération musicale. Cependant, les benchmarks existants sont limités en portée, reposant souvent sur des tâches simplifiées ou des évaluations à choix multiples qui ne reflètent pas la complexité de l'analyse musicale dans le monde réel. Nous réinterprétons un large éventail d'annotations traditionnelles en recherche d'information musicale (MIR) sous forme de formats d'exécution d'instructions et introduisons CMI-Bench, un benchmark complet d'exécution d'instructions musicales conçu pour évaluer les LLMs audio-textuels sur un ensemble diversifié de tâches de MIR. Celles-ci incluent la classification de genre, la régression d'émotion, l'étiquetage d'émotion, la classification d'instruments, l'estimation de hauteur, la détection de tonalité, la transcription de paroles, l'extraction de mélodie, la reconnaissance de techniques vocales, la détection de techniques d'exécution instrumentale, l'étiquetage musical, la description musicale et le suivi de (contre-)temps : reflétant les défis fondamentaux de la recherche en MIR. Contrairement aux benchmarks précédents, CMI-Bench adopte des métriques d'évaluation standardisées cohérentes avec les modèles MIR de pointe précédents, assurant une comparabilité directe avec les approches supervisées. Nous fournissons un kit d'évaluation prenant en charge tous les LLMs audio-textuels open-source, y compris LTU, Qwen-audio, SALMONN, MusiLingo, etc. Les résultats expérimentaux révèlent des écarts de performance significatifs entre les LLMs et les modèles supervisés, ainsi que leurs biais culturels, chronologiques et de genre, mettant en lumière le potentiel et les limites des modèles actuels dans la résolution des tâches MIR. CMI-Bench établit une base unifiée pour l'évaluation de l'exécution d'instructions musicales, favorisant les progrès dans les LLMs conscients de la musique.
English
Recent advances in audio-text large language models (LLMs) have opened new
possibilities for music understanding and generation. However, existing
benchmarks are limited in scope, often relying on simplified tasks or
multi-choice evaluations that fail to reflect the complexity of real-world
music analysis. We reinterpret a broad range of traditional MIR annotations as
instruction-following formats and introduce CMI-Bench, a comprehensive music
instruction following benchmark designed to evaluate audio-text LLMs on a
diverse set of music information retrieval (MIR) tasks. These include genre
classification, emotion regression, emotion tagging, instrument classification,
pitch estimation, key detection, lyrics transcription, melody extraction, vocal
technique recognition, instrument performance technique detection, music
tagging, music captioning, and (down)beat tracking: reflecting core challenges
in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized
evaluation metrics consistent with previous state-of-the-art MIR models,
ensuring direct comparability with supervised approaches. We provide an
evaluation toolkit supporting all open-source audio-textual LLMs, including
LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant
performance gaps between LLMs and supervised models, along with their culture,
chronological and gender bias, highlighting the potential and limitations of
current models in addressing MIR tasks. CMI-Bench establishes a unified
foundation for evaluating music instruction following, driving progress in
music-aware LLMs.