Omni-Reward: Verso una Modellazione Omni-Modale Generalista della Ricompensa con Preferenze a Forma Libera

Abstract

I modelli di reward (RMs) svolgono un ruolo cruciale nell'allineare i comportamenti dell'IA con le preferenze umane, ma affrontano due sfide fondamentali: (1) Squilibrio di Modalità, dove la maggior parte degli RMs si concentra principalmente sulle modalità testo e immagine, offrendo un supporto limitato per video, audio e altre modalità; e (2) Rigidità delle Preferenze, dove l'addestramento su coppie fisse di preferenze binarie non riesce a catturare la complessità e la diversità delle preferenze personalizzate. Per affrontare le suddette sfide, proponiamo Omni-Reward, un passo verso la modellazione di reward generalista omni-modale con supporto per preferenze libere, costituito da: (1) Valutazione: Introduciamo Omni-RewardBench, il primo benchmark omni-modale per RMs con preferenze libere, che copre nove task attraverso cinque modalità incluse testo, immagine, video, audio e 3D; (2) Dati: Costruiamo Omni-RewardData, un dataset di preferenze multimodale comprendente 248K coppie di preferenze generali e 69K coppie per instruction-tuning per addestrare RMs generalisti omni-modali; (3) Modello: Proponiamo Omni-RewardModel, che include sia RMs discriminativi che generativi, e raggiunge prestazioni solide su Omni-RewardBench così come su altri benchmark di modellazione di reward ampiamente utilizzati.

English

Reward models (RMs) play a critical role in aligning AI behaviors with human preferences, yet they face two fundamental challenges: (1) Modality Imbalance, where most RMs are mainly focused on text and image modalities, offering limited support for video, audio, and other modalities; and (2) Preference Rigidity, where training on fixed binary preference pairs fails to capture the complexity and diversity of personalized preferences. To address the above challenges, we propose Omni-Reward, a step toward generalist omni-modal reward modeling with support for free-form preferences, consisting of: (1) Evaluation: We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form preferences, covering nine tasks across five modalities including text, image, video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal preference dataset comprising 248K general preference pairs and 69K instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We propose Omni-RewardModel, which includes both discriminative and generative RMs, and achieves strong performance on Omni-RewardBench as well as other widely used reward modeling benchmarks.

Omni-Reward: Verso una Modellazione Omni-Modale Generalista della Ricompensa con Preferenze a Forma Libera

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

Abstract

Support