CMI-Bench: Un Benchmark Completo per la Valutazione del Seguimento delle Istruzioni Musicali

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) audio-testuali hanno aperto nuove possibilità per la comprensione e la generazione musicale. Tuttavia, i benchmark esistenti sono limitati nella portata, spesso basandosi su compiti semplificati o valutazioni a scelta multipla che non riflettono la complessità dell'analisi musicale nel mondo reale. Rinterpretiamo un'ampia gamma di annotazioni tradizionali di MIR (Music Information Retrieval) in formati di istruzione-seguimento e introduciamo CMI-Bench, un benchmark completo per il seguimento di istruzioni musicali progettato per valutare gli LLM audio-testuali su un insieme diversificato di compiti di MIR. Questi includono la classificazione di genere, la regressione delle emozioni, l'etichettatura delle emozioni, la classificazione degli strumenti, la stima dell'intonazione, la rilevazione della tonalità, la trascrizione del testo, l'estrazione della melodia, il riconoscimento delle tecniche vocali, la rilevazione delle tecniche di esecuzione strumentale, l'etichettatura musicale, la descrizione musicale e il tracciamento di (down)beat: riflettendo le sfide fondamentali nella ricerca MIR. A differenza dei benchmark precedenti, CMI-Bench adotta metriche di valutazione standardizzate coerenti con i precedenti modelli MIR all'avanguardia, garantendo una comparabilità diretta con approcci supervisionati. Forniamo un toolkit di valutazione che supporta tutti gli LLM audio-testuali open-source, inclusi LTU, Qwen-audio, SALMONN, MusiLingo, ecc. I risultati degli esperimenti rivelano significative lacune prestazionali tra gli LLM e i modelli supervisionati, insieme ai loro pregiudizi culturali, cronologici e di genere, evidenziando i potenziali e i limiti dei modelli attuali nell'affrontare i compiti MIR. CMI-Bench stabilisce una base unificata per la valutazione del seguimento di istruzioni musicali, guidando il progresso negli LLM consapevoli della musica.

English

Recent advances in audio-text large language models (LLMs) have opened new possibilities for music understanding and generation. However, existing benchmarks are limited in scope, often relying on simplified tasks or multi-choice evaluations that fail to reflect the complexity of real-world music analysis. We reinterpret a broad range of traditional MIR annotations as instruction-following formats and introduce CMI-Bench, a comprehensive music instruction following benchmark designed to evaluate audio-text LLMs on a diverse set of music information retrieval (MIR) tasks. These include genre classification, emotion regression, emotion tagging, instrument classification, pitch estimation, key detection, lyrics transcription, melody extraction, vocal technique recognition, instrument performance technique detection, music tagging, music captioning, and (down)beat tracking: reflecting core challenges in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized evaluation metrics consistent with previous state-of-the-art MIR models, ensuring direct comparability with supervised approaches. We provide an evaluation toolkit supporting all open-source audio-textual LLMs, including LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant performance gaps between LLMs and supervised models, along with their culture, chronological and gender bias, highlighting the potential and limitations of current models in addressing MIR tasks. CMI-Bench establishes a unified foundation for evaluating music instruction following, driving progress in music-aware LLMs.

CMI-Bench: Un Benchmark Completo per la Valutazione del Seguimento delle Istruzioni Musicali

CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

Abstract

Support