Omni-Reward : Vers une modélisation de récompense omnimodale généraliste avec des préférences de forme libre
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
October 27, 2025
papers.authors: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
papers.abstract
Les modèles de récompense (RMs) jouent un rôle crucial dans l'alignement des comportements de l'IA avec les préférences humaines, mais ils font face à deux défis fondamentaux : (1) le Déséquilibre Modal, où la plupart des RMs se concentrent principalement sur les modalités texte et image, offrant un support limité pour la vidéo, l'audio et autres modalités ; et (2) la Rigidité des Préférences, où l'entraînement sur des paires de préférences binaires fixes échoue à capturer la complexité et la diversité des préférences personnalisées. Pour relever ces défis, nous proposons Omni-Reward, une avancée vers la modélisation de récompense omni-modale généraliste avec support pour les préférences de forme libre, comprenant : (1) Évaluation : Nous introduisons Omni-RewardBench, le premier benchmark RM omni-modal avec préférences libres, couvrant neuf tâches across cinq modalités incluant le texte, l'image, la vidéo, l'audio et la 3D ; (2) Données : Nous construisons Omni-RewardData, un ensemble de données de préférences multimodales comprenant 248K paires de préférences générales et 69K paires d'ajustement instructionnel pour l'entraînement de RMs omni-modaux généralistes ; (3) Modèle : Nous proposons Omni-RewardModel, qui inclut à la fois des RMs discriminatifs et génératifs, et atteint des performances solides sur Omni-RewardBench ainsi que sur d'autres benchmarks de modélisation de récompense largement utilisés.
English
Reward models (RMs) play a critical role in aligning AI behaviors with human
preferences, yet they face two fundamental challenges: (1) Modality Imbalance,
where most RMs are mainly focused on text and image modalities, offering
limited support for video, audio, and other modalities; and (2) Preference
Rigidity, where training on fixed binary preference pairs fails to capture the
complexity and diversity of personalized preferences. To address the above
challenges, we propose Omni-Reward, a step toward generalist omni-modal reward
modeling with support for free-form preferences, consisting of: (1) Evaluation:
We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form
preferences, covering nine tasks across five modalities including text, image,
video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal
preference dataset comprising 248K general preference pairs and 69K
instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We
propose Omni-RewardModel, which includes both discriminative and generative
RMs, and achieves strong performance on Omni-RewardBench as well as other
widely used reward modeling benchmarks.