CMI-RewardBench: 구성적 멀티모달 명령어를 활용한 음악 보상 모델 평가
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction
February 28, 2026
저자: Yinghao Ma, Haiwen Xia, Hewei Gao, Weixiong Chen, Yuxin Ye, Yuchen Yang, Sungkyun Chang, Mingshuo Ding, Yizhi Li, Ruibin Yuan, Simon Dixon, Emmanouil Benetos
cs.AI
초록
음악 생성 모델이 텍스트, 가사, 참조 오디오를 혼합한 복잡한 다중모달 입력을 처리할 수 있도록 진화했지만, 평가 메커니즘은 이에 뒤처져 있습니다. 본 논문에서는 생성된 음악이 텍스트 설명, 가사, 오디오 프롬프트에 조건부로 생성될 수 있는 Compositional Multimodal Instruction(CMI) 하에서 음악 보상 모델링을 위한 포괄적인 생태계를 구축하여 이 중요한 격차를 해소합니다. 먼저 11만 개의 의사 레이블(pseudo-labeled) 샘플로 구성된 대규모 선호도 데이터셋 CMI-Pref-Pseudo와 세분화된 정렬(alignment) 작업에 맞춰진 고품질의 인간 주석 데이터셋 CMI-Pref를 소개합니다. 평가 환경을 통합하기 위해 이질적인 샘플에 대해 음악성, 텍스트-음악 정렬, 구성적 지시 정렬을 평가하는 통합 벤치마크 CMI-RewardBench를 제안합니다. 이러한 자원을 활용하여 이질적인 입력을 처리할 수 있는 매개변수 효율적인 보상 모델 패밀리인 CMI 보상 모델(CMI-RM)을 개발합니다. CMI-Pref와 기존 데이터셋을 통해 음악성 및 정렬에 대한 인간의 판단 점수와의 상관관계를 평가합니다. 추가 실험을 통해 CMI-RM이 인간의 판단과 강한 상관 관계를 보일 뿐만 아니라 top-k 필터링을 통한 효과적인 추론 시 스케일링을 가능하게 함을 입증합니다. 필요한 학습 데이터, 벤치마크, 보상 모델은 공개되어 있습니다.
English
While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.