CMI-RewardBench: Valutazione dei Modelli di Ricompensa Musicale con Istruzioni Multimodali Composizionali
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction
February 28, 2026
Autori: Yinghao Ma, Haiwen Xia, Hewei Gao, Weixiong Chen, Yuxin Ye, Yuchen Yang, Sungkyun Chang, Mingshuo Ding, Yizhi Li, Ruibin Yuan, Simon Dixon, Emmanouil Benetos
cs.AI
Abstract
Mentre i modelli di generazione musicale si sono evoluti per gestire input multimodali complessi che mescolano testo, testi e audio di riferimento, i meccanismi di valutazione sono rimasti indietro. In questo articolo, colmiamo questa lacuna critica stabilendo un ecosistema completo per la modellizzazione dei reward musicali nell'ambito delle Istruzioni Multimodali Composizionali (CMI), dove la musica generata può essere condizionata da descrizioni testuali, testi e prompt audio. Introduciamo innanzitutto CMI-Pref-Pseudo, un ampio dataset di preferenze comprendente 110k campioni etichettati pseudo-automaticamente, e CMI-Pref, un corpus di alta qualità annotato manualmente e specificamente progettato per compiti di allineamento granulari. Per unificare il panorama valutativo, proponiamo CMI-RewardBench, un benchmark unificato che valuta i modelli di reward musicali su campioni eterogenei in termini di musicalità, allineamento testo-musica e allineamento alle istruzioni composizionali. Sfruttando queste risorse, sviluppiamo i modelli di reward CMI (CMI-RM), una famiglia di modelli di reward efficiente in termini di parametri in grado di elaborare input eterogenei. Valutiamo la loro correlazione con i punteggi di giudizio umano sulla musicalità e sull'allineamento su CMI-Pref insieme a dataset precedenti. Ulteriori esperimenti dimostrano che CMI-RM non solo si correla fortemente con i giudizi umani, ma consente anche un efficace scaling al momento dell'inferenza tramite filtraggio top-k. I dati di addestramento, i benchmark e i modelli di reward necessari sono pubblicamente disponibili.
English
While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.