CMI-Bench: Комплексный бенчмарк для оценки следования музыкальным инструкциям
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
June 14, 2025
Авторы: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей (LLM), работающих с аудио и текстом, открыли новые возможности для понимания и генерации музыки. Однако существующие бенчмарки ограничены по охвату, часто полагаясь на упрощенные задачи или оценки с множественным выбором, которые не отражают сложность реального анализа музыки. Мы переосмысливаем широкий спектр традиционных аннотаций в области музыкального информационного поиска (MIR) в формате выполнения инструкций и представляем CMI-Bench — комплексный бенчмарк для выполнения музыкальных инструкций, предназначенный для оценки аудио-текстовых LLM на разнообразных задачах MIR. Эти задачи включают классификацию жанров, регрессию эмоций, тегирование эмоций, классификацию инструментов, оценку высоты тона, определение тональности, транскрипцию текста песен, извлечение мелодии, распознавание вокальных техник, обнаружение техник исполнения на инструментах, тегирование музыки, создание описаний музыки и отслеживание (долей) тактов: все это отражает ключевые вызовы в исследованиях MIR. В отличие от предыдущих бенчмарков, CMI-Bench использует стандартизированные метрики оценки, согласованные с предыдущими передовыми моделями MIR, что обеспечивает прямую сравнимость с контролируемыми подходами. Мы предоставляем набор инструментов для оценки, поддерживающий все открытые аудио-текстовые LLM, включая LTU, Qwen-audio, SALMONN, MusiLingo и другие. Результаты экспериментов выявляют значительные разрывы в производительности между LLM и контролируемыми моделями, а также их культурные, хронологические и гендерные предубеждения, подчеркивая потенциал и ограничения текущих моделей в решении задач MIR. CMI-Bench устанавливает единую основу для оценки выполнения музыкальных инструкций, способствуя прогрессу в LLM, ориентированных на музыку.
English
Recent advances in audio-text large language models (LLMs) have opened new
possibilities for music understanding and generation. However, existing
benchmarks are limited in scope, often relying on simplified tasks or
multi-choice evaluations that fail to reflect the complexity of real-world
music analysis. We reinterpret a broad range of traditional MIR annotations as
instruction-following formats and introduce CMI-Bench, a comprehensive music
instruction following benchmark designed to evaluate audio-text LLMs on a
diverse set of music information retrieval (MIR) tasks. These include genre
classification, emotion regression, emotion tagging, instrument classification,
pitch estimation, key detection, lyrics transcription, melody extraction, vocal
technique recognition, instrument performance technique detection, music
tagging, music captioning, and (down)beat tracking: reflecting core challenges
in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized
evaluation metrics consistent with previous state-of-the-art MIR models,
ensuring direct comparability with supervised approaches. We provide an
evaluation toolkit supporting all open-source audio-textual LLMs, including
LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant
performance gaps between LLMs and supervised models, along with their culture,
chronological and gender bias, highlighting the potential and limitations of
current models in addressing MIR tasks. CMI-Bench establishes a unified
foundation for evaluating music instruction following, driving progress in
music-aware LLMs.