CMI-Bench: Un Benchmark Completo per la Valutazione del Seguimento delle Istruzioni Musicali
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
June 14, 2025
Autori: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) audio-testuali hanno aperto nuove possibilità per la comprensione e la generazione musicale. Tuttavia, i benchmark esistenti sono limitati nella portata, spesso basandosi su compiti semplificati o valutazioni a scelta multipla che non riflettono la complessità dell'analisi musicale nel mondo reale. Rinterpretiamo un'ampia gamma di annotazioni tradizionali di MIR (Music Information Retrieval) in formati di istruzione-seguimento e introduciamo CMI-Bench, un benchmark completo per il seguimento di istruzioni musicali progettato per valutare gli LLM audio-testuali su un insieme diversificato di compiti di MIR. Questi includono la classificazione di genere, la regressione delle emozioni, l'etichettatura delle emozioni, la classificazione degli strumenti, la stima dell'intonazione, la rilevazione della tonalità, la trascrizione del testo, l'estrazione della melodia, il riconoscimento delle tecniche vocali, la rilevazione delle tecniche di esecuzione strumentale, l'etichettatura musicale, la descrizione musicale e il tracciamento di (down)beat: riflettendo le sfide fondamentali nella ricerca MIR. A differenza dei benchmark precedenti, CMI-Bench adotta metriche di valutazione standardizzate coerenti con i precedenti modelli MIR all'avanguardia, garantendo una comparabilità diretta con approcci supervisionati. Forniamo un toolkit di valutazione che supporta tutti gli LLM audio-testuali open-source, inclusi LTU, Qwen-audio, SALMONN, MusiLingo, ecc. I risultati degli esperimenti rivelano significative lacune prestazionali tra gli LLM e i modelli supervisionati, insieme ai loro pregiudizi culturali, cronologici e di genere, evidenziando i potenziali e i limiti dei modelli attuali nell'affrontare i compiti MIR. CMI-Bench stabilisce una base unificata per la valutazione del seguimento di istruzioni musicali, guidando il progresso negli LLM consapevoli della musica.
English
Recent advances in audio-text large language models (LLMs) have opened new
possibilities for music understanding and generation. However, existing
benchmarks are limited in scope, often relying on simplified tasks or
multi-choice evaluations that fail to reflect the complexity of real-world
music analysis. We reinterpret a broad range of traditional MIR annotations as
instruction-following formats and introduce CMI-Bench, a comprehensive music
instruction following benchmark designed to evaluate audio-text LLMs on a
diverse set of music information retrieval (MIR) tasks. These include genre
classification, emotion regression, emotion tagging, instrument classification,
pitch estimation, key detection, lyrics transcription, melody extraction, vocal
technique recognition, instrument performance technique detection, music
tagging, music captioning, and (down)beat tracking: reflecting core challenges
in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized
evaluation metrics consistent with previous state-of-the-art MIR models,
ensuring direct comparability with supervised approaches. We provide an
evaluation toolkit supporting all open-source audio-textual LLMs, including
LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant
performance gaps between LLMs and supervised models, along with their culture,
chronological and gender bias, highlighting the potential and limitations of
current models in addressing MIR tasks. CMI-Bench establishes a unified
foundation for evaluating music instruction following, driving progress in
music-aware LLMs.