ChatPaper.aiChatPaper

CMI-Bench: Un punto de referencia integral para la evaluación de la instrucción musical

CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

June 14, 2025
Autores: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs) de audio-texto han abierto nuevas posibilidades para la comprensión y generación de música. Sin embargo, los puntos de referencia existentes son limitados en alcance, a menudo basándose en tareas simplificadas o evaluaciones de opción múltiple que no reflejan la complejidad del análisis musical en el mundo real. Reinterpretamos una amplia gama de anotaciones tradicionales de MIR (Music Information Retrieval) como formatos de seguimiento de instrucciones e introducimos CMI-Bench, un punto de referencia integral de seguimiento de instrucciones musicales diseñado para evaluar los LLMs de audio-texto en un conjunto diverso de tareas de recuperación de información musical (MIR). Estas incluyen clasificación de género, regresión de emociones, etiquetado de emociones, clasificación de instrumentos, estimación de tono, detección de tonalidad, transcripción de letras, extracción de melodía, reconocimiento de técnicas vocales, detección de técnicas de interpretación instrumental, etiquetado musical, descripción musical y seguimiento de (contra)tiempos: reflejando los desafíos centrales en la investigación de MIR. A diferencia de los puntos de referencia anteriores, CMI-Bench adopta métricas de evaluación estandarizadas consistentes con los modelos MIR de última generación previos, asegurando una comparabilidad directa con enfoques supervisados. Proporcionamos un kit de herramientas de evaluación que soporta todos los LLMs de audio-texto de código abierto, incluyendo LTU, Qwen-audio, SALMONN, MusiLingo, etc. Los resultados experimentales revelan brechas significativas en el rendimiento entre los LLMs y los modelos supervisados, junto con sus sesgos culturales, cronológicos y de género, destacando el potencial y las limitaciones de los modelos actuales para abordar tareas de MIR. CMI-Bench establece una base unificada para evaluar el seguimiento de instrucciones musicales, impulsando el progreso en los LLMs conscientes de la música.
English
Recent advances in audio-text large language models (LLMs) have opened new possibilities for music understanding and generation. However, existing benchmarks are limited in scope, often relying on simplified tasks or multi-choice evaluations that fail to reflect the complexity of real-world music analysis. We reinterpret a broad range of traditional MIR annotations as instruction-following formats and introduce CMI-Bench, a comprehensive music instruction following benchmark designed to evaluate audio-text LLMs on a diverse set of music information retrieval (MIR) tasks. These include genre classification, emotion regression, emotion tagging, instrument classification, pitch estimation, key detection, lyrics transcription, melody extraction, vocal technique recognition, instrument performance technique detection, music tagging, music captioning, and (down)beat tracking: reflecting core challenges in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized evaluation metrics consistent with previous state-of-the-art MIR models, ensuring direct comparability with supervised approaches. We provide an evaluation toolkit supporting all open-source audio-textual LLMs, including LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant performance gaps between LLMs and supervised models, along with their culture, chronological and gender bias, highlighting the potential and limitations of current models in addressing MIR tasks. CMI-Bench establishes a unified foundation for evaluating music instruction following, driving progress in music-aware LLMs.
PDF472June 18, 2025