Omni-Reward : Vers une modélisation de récompense omnimodale généraliste avec des préférences de forme libre

papers.abstract

Les modèles de récompense (RMs) jouent un rôle crucial dans l'alignement des comportements de l'IA avec les préférences humaines, mais ils font face à deux défis fondamentaux : (1) le Déséquilibre Modal, où la plupart des RMs se concentrent principalement sur les modalités texte et image, offrant un support limité pour la vidéo, l'audio et autres modalités ; et (2) la Rigidité des Préférences, où l'entraînement sur des paires de préférences binaires fixes échoue à capturer la complexité et la diversité des préférences personnalisées. Pour relever ces défis, nous proposons Omni-Reward, une avancée vers la modélisation de récompense omni-modale généraliste avec support pour les préférences de forme libre, comprenant : (1) Évaluation : Nous introduisons Omni-RewardBench, le premier benchmark RM omni-modal avec préférences libres, couvrant neuf tâches across cinq modalités incluant le texte, l'image, la vidéo, l'audio et la 3D ; (2) Données : Nous construisons Omni-RewardData, un ensemble de données de préférences multimodales comprenant 248K paires de préférences générales et 69K paires d'ajustement instructionnel pour l'entraînement de RMs omni-modaux généralistes ; (3) Modèle : Nous proposons Omni-RewardModel, qui inclut à la fois des RMs discriminatifs et génératifs, et atteint des performances solides sur Omni-RewardBench ainsi que sur d'autres benchmarks de modélisation de récompense largement utilisés.

English

Reward models (RMs) play a critical role in aligning AI behaviors with human preferences, yet they face two fundamental challenges: (1) Modality Imbalance, where most RMs are mainly focused on text and image modalities, offering limited support for video, audio, and other modalities; and (2) Preference Rigidity, where training on fixed binary preference pairs fails to capture the complexity and diversity of personalized preferences. To address the above challenges, we propose Omni-Reward, a step toward generalist omni-modal reward modeling with support for free-form preferences, consisting of: (1) Evaluation: We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form preferences, covering nine tasks across five modalities including text, image, video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal preference dataset comprising 248K general preference pairs and 69K instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We propose Omni-RewardModel, which includes both discriminative and generative RMs, and achieves strong performance on Omni-RewardBench as well as other widely used reward modeling benchmarks.

Omni-Reward : Vers une modélisation de récompense omnimodale généraliste avec des préférences de forme libre

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

papers.abstract

Support