Omni-Reward: Op weg naar generalistische omni-modale beloningsmodellering met vrije-vorm voorkeuren
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
October 27, 2025
Auteurs: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Samenvatting
Beloningsmodellen (RMs) spelen een cruciale rol bij het afstemmen van AI-gedrag op menselijke voorkeuren, maar worden geconfronteerd met twee fundamentele uitdagingen: (1) Modaliteitsonevenwicht, waarbij de meeste RMs voornamelijk gericht zijn op tekst- en beeldmodaliteiten en beperkte ondersteuning bieden voor video, audio en andere modaliteiten; en (2) Voorkeursrigiditeit, waarbij training op vaste binaire voorkeursparen de complexiteit en diversiteit van gepersonaliseerde voorkeuren niet kan vastleggen. Om deze uitdagingen aan te pakken, stellen wij Omni-Reward voor, een stap in de richting van generalistische omni-modale beloningsmodellering met ondersteuning voor vrije-vorm voorkeuren, bestaande uit: (1) Evaluatie: We introduceren Omni-RewardBench, de eerste omni-modale RM-benchmark met vrije-vorm voorkeuren, die negen taken beslaat over vijf modaliteiten, waaronder tekst, beeld, video, audio en 3D; (2) Data: We construeren Omni-RewardData, een multimodaal voorkeursdataset bestaande uit 248K algemene voorkeursparen en 69K instructie-afstemmingsparen voor het trainen van generalistische omni-modale RMs; (3) Model: We stellen Omni-RewardModel voor, dat zowel discriminerende als generatieve RMs omvat, en sterke prestaties behaalt op Omni-RewardBench evenals op andere veelgebruikte beloningsmodelleringsbenchmarks.
English
Reward models (RMs) play a critical role in aligning AI behaviors with human
preferences, yet they face two fundamental challenges: (1) Modality Imbalance,
where most RMs are mainly focused on text and image modalities, offering
limited support for video, audio, and other modalities; and (2) Preference
Rigidity, where training on fixed binary preference pairs fails to capture the
complexity and diversity of personalized preferences. To address the above
challenges, we propose Omni-Reward, a step toward generalist omni-modal reward
modeling with support for free-form preferences, consisting of: (1) Evaluation:
We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form
preferences, covering nine tasks across five modalities including text, image,
video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal
preference dataset comprising 248K general preference pairs and 69K
instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We
propose Omni-RewardModel, which includes both discriminative and generative
RMs, and achieves strong performance on Omni-RewardBench as well as other
widely used reward modeling benchmarks.