CMI-Bench: Um Benchmark Abrangente para Avaliação de Instrução Musical
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
June 14, 2025
Autores: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs) áudio-texto abriram novas possibilidades para a compreensão e geração de música. No entanto, os benchmarks existentes são limitados em escopo, frequentemente dependendo de tarefas simplificadas ou avaliações de múltipla escolha que não refletem a complexidade da análise musical do mundo real. Reinterpretamos uma ampla gama de anotações tradicionais de MIR (Music Information Retrieval) como formatos de seguimento de instruções e introduzimos o CMI-Bench, um benchmark abrangente de seguimento de instruções musicais projetado para avaliar LLMs áudio-texto em um conjunto diversificado de tarefas de MIR. Estas incluem classificação de gênero, regressão de emoção, etiquetagem de emoção, classificação de instrumentos, estimativa de tom, detecção de tonalidade, transcrição de letras, extração de melodia, reconhecimento de técnica vocal, detecção de técnica de performance instrumental, etiquetagem musical, legendagem de música e rastreamento de batidas (downbeats): refletindo os principais desafios na pesquisa de MIR. Diferente de benchmarks anteriores, o CMI-Bench adota métricas de avaliação padronizadas consistentes com os modelos MIR state-of-the-art anteriores, garantindo comparabilidade direta com abordagens supervisionadas. Fornecemos um kit de ferramentas de avaliação que suporta todos os LLMs áudio-textuais de código aberto, incluindo LTU, Qwen-audio, SALMONN, MusiLingo, etc. Os resultados dos experimentos revelam lacunas significativas de desempenho entre LLMs e modelos supervisionados, juntamente com seus vieses culturais, cronológicos e de gênero, destacando o potencial e as limitações dos modelos atuais na abordagem de tarefas de MIR. O CMI-Bench estabelece uma base unificada para avaliar o seguimento de instruções musicais, impulsionando o progresso em LLMs conscientes de música.
English
Recent advances in audio-text large language models (LLMs) have opened new
possibilities for music understanding and generation. However, existing
benchmarks are limited in scope, often relying on simplified tasks or
multi-choice evaluations that fail to reflect the complexity of real-world
music analysis. We reinterpret a broad range of traditional MIR annotations as
instruction-following formats and introduce CMI-Bench, a comprehensive music
instruction following benchmark designed to evaluate audio-text LLMs on a
diverse set of music information retrieval (MIR) tasks. These include genre
classification, emotion regression, emotion tagging, instrument classification,
pitch estimation, key detection, lyrics transcription, melody extraction, vocal
technique recognition, instrument performance technique detection, music
tagging, music captioning, and (down)beat tracking: reflecting core challenges
in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized
evaluation metrics consistent with previous state-of-the-art MIR models,
ensuring direct comparability with supervised approaches. We provide an
evaluation toolkit supporting all open-source audio-textual LLMs, including
LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant
performance gaps between LLMs and supervised models, along with their culture,
chronological and gender bias, highlighting the potential and limitations of
current models in addressing MIR tasks. CMI-Bench establishes a unified
foundation for evaluating music instruction following, driving progress in
music-aware LLMs.