Omni-Reward: Auf dem Weg zu einem generalistischen omni-modalen Belohnungsmodell mit freiformulierten Präferenzen
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
October 27, 2025
papers.authors: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
papers.abstract
Belohnungsmodelle (RMs) spielen eine entscheidende Rolle bei der Ausrichtung des KI-Verhaltens an menschlichen Präferenzen, sehen sich jedoch zwei grundlegenden Herausforderungen gegenüber: (1) Modalitätsungleichgewicht, bei dem sich die meisten RMs hauptsächlich auf Text- und Bildmodalitäten konzentrieren und nur begrenzte Unterstützung für Video, Audio und andere Modalitäten bieten; und (2) Präferenzstarrheit, bei der das Training auf festen binären Präferenzpaaren die Komplexität und Vielfalt personalisierter Präferenzen nicht erfassen kann. Um diese Herausforderungen zu bewältigen, schlagen wir Omni-Reward vor, einen Schritt in Richtung eines generalistischen omni-modalen Belohnungsmodellierungsansatzes mit Unterstützung für freiformulierte Präferenzen, bestehend aus: (1) Evaluation: Wir führen Omni-RewardBench ein, den ersten omni-modalen RM-Benchmark mit freiformulierten Präferenzen, der neun Aufgaben über fünf Modalitäten hinweg abdeckt, einschließlich Text, Bild, Video, Audio und 3D; (2) Daten: Wir erstellen Omni-RewardData, einen multimodalen Präferenzdatensatz mit 248K allgemeinen Präferenzpaaren und 69K Instruction-Tuning-Paaren zum Training generalistischer omni-modaler RMs; (3) Modell: Wir schlagen Omni-RewardModel vor, das sowohl diskriminierende als auch generative RMs umfasst und auf Omni-RewardBench sowie anderen weit verbreiteten Benchmarks für Belohnungsmodellierung eine hohe Leistung erzielt.
English
Reward models (RMs) play a critical role in aligning AI behaviors with human
preferences, yet they face two fundamental challenges: (1) Modality Imbalance,
where most RMs are mainly focused on text and image modalities, offering
limited support for video, audio, and other modalities; and (2) Preference
Rigidity, where training on fixed binary preference pairs fails to capture the
complexity and diversity of personalized preferences. To address the above
challenges, we propose Omni-Reward, a step toward generalist omni-modal reward
modeling with support for free-form preferences, consisting of: (1) Evaluation:
We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form
preferences, covering nine tasks across five modalities including text, image,
video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal
preference dataset comprising 248K general preference pairs and 69K
instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We
propose Omni-RewardModel, which includes both discriminative and generative
RMs, and achieves strong performance on Omni-RewardBench as well as other
widely used reward modeling benchmarks.