ChatPaper.aiChatPaper

CMI-RewardBench:合成的マルチモーダル命令による音楽報酬モデルの評価

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

February 28, 2026
著者: Yinghao Ma, Haiwen Xia, Hewei Gao, Weixiong Chen, Yuxin Ye, Yuchen Yang, Sungkyun Chang, Mingshuo Ding, Yizhi Li, Ruibin Yuan, Simon Dixon, Emmanouil Benetos
cs.AI

要旨

音楽生成モデルは、テキスト、歌詞、参照音声を混合した複雑なマルチモーダル入力を扱えるように進化してきたが、評価メカニズムは遅れをとっている。本論文では、生成音楽がテキスト記述、歌詞、音声プロンプトに条件付けられるCompositional Multimodal Instruction(CMI)のもとで、音楽報酬モデリングの包括的エコシステムを構築し、この重要な隔たりを埋める。まず、11万の擬似ラベル付きサンプルからなる大規模選好データセットCMI-Pref-Pseudoと、細粒度アライメントタスクに特化した高品質な人手注釈コーパスCMI-Prefを紹介する。評価環境を統一するため、音楽性、テキスト-音楽アライメント、合成的指示アライメントにわたる異種サンプルで音楽報酬モデルを評価する統一ベンチマークCMI-RewardBenchを提案する。これらのリソースを活用し、異種入力を処理可能なパラメータ効率の良い報酬モデル群であるCMI reward models(CMI-RMs)を開発する。音楽性とアライメントに関する人間の判断スコアとの相関を、CMI-Prefおよび従来のデータセットで評価する。さらに実験により、CMI-RMが人間の判断と強く相関するだけでなく、トップkフィルタリングによる推論時の効果的なスケーリングを可能にすることを実証する。必要な学習データ、ベンチマーク、報酬モデルは公開されている。
English
While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.
PDF352March 19, 2026