CMI-RewardBench: Оценка музыкальных моделей вознаграждения с помощью композиционных мультимодальных инструкций
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction
February 28, 2026
Авторы: Yinghao Ma, Haiwen Xia, Hewei Gao, Weixiong Chen, Yuxin Ye, Yuchen Yang, Sungkyun Chang, Mingshuo Ding, Yizhi Li, Ruibin Yuan, Simon Dixon, Emmanouil Benetos
cs.AI
Аннотация
Хотя модели генерации музыки эволюционировали для работы со сложными мультимодальными входами, сочетающими текст, тексты песен и референсное аудио, механизмы их оценки отстают. В данной статье мы устраняем этот критический разрыв, создавая комплексную экосистему для моделирования музыкальных вознаграждений в рамках Композиционной Мультимодальной Инструкции (КМИ), где генерируемая музыка может обусловливаться текстовыми описаниями, текстами песен и аудиоподсказками. Сначала мы представляем CMI-Pref-Pseudo — крупномасштабный набор данных предпочтений, содержащий 110 тыс. псевдоразмеченных примеров, и CMI-Pref — высококачественный, размеченный человеком корпус, созданный для задач тонкого согласования. Чтобы унифицировать ландшафт оценки, мы предлагаем CMI-RewardBench — унифицированный бенчмарк, оценивающий модели музыкальных вознаграждений на гетерогенных примерах по параметрам музыкальности, согласованности текста и музыки и соответствия композиционной инструкции. Используя эти ресурсы, мы разрабатываем CMI-RM — семейство параметрически эффективных моделей вознаграждения, способных обрабатывать гетерогенные входные данные. Мы оцениваем их корреляцию с человеческими оценками музыкальности и согласованности на CMI-Pref и предыдущих наборах данных. Дальнейшие эксперименты демонстрируют, что CMI-RM не только сильно коррелирует с человеческими оценками, но и позволяет эффективно масштабировать вывод во время inference с помощью top-k фильтрации. Необходимые данные для обучения, бенчмарки и модели вознаграждения находятся в открытом доступе.
English
While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.