Omni-Reward:自由形式の選好に基づく汎用オムニモーダル報酬モデリングの実現を目指して
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
October 27, 2025
著者: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
要旨
報酬モデル(RM)は、AIの振る舞いを人間の選好に適合させる上で重要な役割を果たすが、二つの根本的な課題に直面している:(1)モダリティ不均衡——既存のRMの大半はテキストと画像モダリティに集中しており、動画・音声・その他モダリティへの対応が限定的であること;(2)選好硬直性——固定された二値選好ペアでの学習では、個人化された選好の複雑さと多様性を捉えきれないこと。これらの課題を解決するため、本論文ではOmni-Rewardを提案する。これは自由形式の選好をサポートする一般主義的オールモーダル報酬モデルへの第一歩であり、以下で構成される:(1)評価:初の自由形式選好対応オールモーダルRMベンチマーク「Omni-RewardBench」を導入。テキスト、画像、動画、音声、3Dの5モダリティ・9タスクを網羅;(2)データ:マルチモーダル選好データセット「Omni-RewardData」を構築。一般主義的オールモーダルRM訓練用に24万8千の一般選好ペアと6万9千の指示チューニング用ペアを収録;(3)モデル:識別型と生成型の両RMを含む「Omni-RewardModel」を提案。Omni-RewardBenchおよび他の広く使われる報酬モデルベンチマークで強力な性能を達成。
English
Reward models (RMs) play a critical role in aligning AI behaviors with human
preferences, yet they face two fundamental challenges: (1) Modality Imbalance,
where most RMs are mainly focused on text and image modalities, offering
limited support for video, audio, and other modalities; and (2) Preference
Rigidity, where training on fixed binary preference pairs fails to capture the
complexity and diversity of personalized preferences. To address the above
challenges, we propose Omni-Reward, a step toward generalist omni-modal reward
modeling with support for free-form preferences, consisting of: (1) Evaluation:
We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form
preferences, covering nine tasks across five modalities including text, image,
video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal
preference dataset comprising 248K general preference pairs and 69K
instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We
propose Omni-RewardModel, which includes both discriminative and generative
RMs, and achieves strong performance on Omni-RewardBench as well as other
widely used reward modeling benchmarks.