ChatPaper.aiChatPaper

CMI-RewardBench: Het evalueren van muziekbeloningsmodellen met compositionele multimodale instructies

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

February 28, 2026
Auteurs: Yinghao Ma, Haiwen Xia, Hewei Gao, Weixiong Chen, Yuxin Ye, Yuchen Yang, Sungkyun Chang, Mingshuo Ding, Yizhi Li, Ruibin Yuan, Simon Dixon, Emmanouil Benetos
cs.AI

Samenvatting

Hoewel modellen voor muziekgeneratie zijn geëvolueerd om complexe multimodale invoer te verwerken die tekst, songteksten en referentieaudio combineert, zijn evaluatiemechanismen achtergebleven. In dit artikel overbruggen we deze kritieke kloof door een uitgebreid ecosysteem te creëren voor muziekbeloningsmodellering onder Compositionele Multimodale Instructie (CMI), waarbij de gegenereerde muziek kan worden geconditioneerd op tekstbeschrijvingen, songteksten en audioprompts. We introduceren eerst CMI-Pref-Pseudo, een grootschalige voorkeursdataset met 110k pseudo-gelabelde samples, en CMI-Pref, een hoogwaardige, door mensen geannoteerde corpus toegesneden op fijnmazige aligneertaken. Om het evaluatielandschap te standaardiseren, stellen we CMI-RewardBench voor, een uniform benchmark die muziekbeloningsmodellen evalueert op heterogene samples op het gebied van musicaliteit, tekst-muziek-alignering en compositorische instructie-alignering. Gebruikmakend van deze bronnen ontwikkelen we CMI-beloningsmodellen (CMI-RMs), een parameter-efficiënte familie van beloningsmodellen die heterogene invoer kan verwerken. We evalueren hun correlatie met menselijke beoordelingsscores voor musicaliteit en alignering op CMI-Pref samen met eerdere datasets. Verdere experimenten tonen aan dat CMI-RM niet alleen sterk correleert met menselijke oordelen, maar ook effectieve inferentie-tijdsschaling mogelijk maakt via top-k-filtering. De benodigde trainingsdata, benchmarks en beloningsmodellen zijn openbaar beschikbaar.
English
While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.
PDF352March 19, 2026