Omni-Reward: 자유 형식 선호도를 통한 일반주의적 범모달리티 보상 모델링
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
October 27, 2025
저자: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
초록
보상 모델(RM)은 AI 행동을 인간 선호도에 정렬시키는 데 중요한 역할을 하지만 두 가지 근본적인 과제에 직면합니다: (1) **양상 불균형** - 대부분의 RM이 주로 텍스트와 이미지 양상에 집중되어 비디오, 오디오 등 다른 양상에 대한 지원이 제한된다는 점, (2) **선호도 경직성** - 고정된 이진 선호도 쌍으로 학습하면 개인화된 선호도의 복잡성과 다양성을 포착하지 못한다는 점입니다. 이러한 과제를 해결하기 위해 우리는 자유 형식 선호도를 지원하는 일반주의적 범양상 보상 모델링을 위한 단계인 **Omni-Reward**를 제안합니다. 이는 다음으로 구성됩니다: (1) **평가**: 텍스트, 이미지, 비디오, 오디오, 3D 등 5개 양상에 걸친 9개 작업을 포함하는 최초의 자유 형식 선호도 범양상 RM 벤치마크인 Omni-RewardBench를 소개합니다. (2) **데이터**: 일반주의적 범양상 RM 학습을 위한 248K개의 일반 선호도 쌍과 69K개의 지시어 튜닝 쌍으로 구성된 다중양상 선호도 데이터셋 Omni-RewardData를 구축합니다. (3) **모델**: 판별형 및 생성형 RM을 모두 포함하는 Omni-RewardModel을 제안하며, 이 모델은 Omni-RewardBench와 다른 널리 사용되는 보상 모델링 벤치마크에서 강력한 성능을 달성합니다.
English
Reward models (RMs) play a critical role in aligning AI behaviors with human
preferences, yet they face two fundamental challenges: (1) Modality Imbalance,
where most RMs are mainly focused on text and image modalities, offering
limited support for video, audio, and other modalities; and (2) Preference
Rigidity, where training on fixed binary preference pairs fails to capture the
complexity and diversity of personalized preferences. To address the above
challenges, we propose Omni-Reward, a step toward generalist omni-modal reward
modeling with support for free-form preferences, consisting of: (1) Evaluation:
We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form
preferences, covering nine tasks across five modalities including text, image,
video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal
preference dataset comprising 248K general preference pairs and 69K
instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We
propose Omni-RewardModel, which includes both discriminative and generative
RMs, and achieves strong performance on Omni-RewardBench as well as other
widely used reward modeling benchmarks.