Omni-Reward: Rumo a Modelagem de Recompensa Omnimodal Generalista com Preferências de Formato Livre
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
October 27, 2025
Autores: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Resumo
Os modelos de recompensa (RMs) desempenham um papel crucial no alinhamento dos comportamentos de IA com as preferências humanas, mas enfrentam dois desafios fundamentais: (1) Desequilíbrio de Modalidades, onde a maioria dos RMs concentra-se principalmente nas modalidades de texto e imagem, oferecendo suporte limitado para vídeo, áudio e outras modalidades; e (2) Rigidez de Preferências, onde o treinamento em pares de preferências binárias fixas falha em capturar a complexidade e diversidade das preferências personalizadas. Para enfrentar esses desafios, propomos o Omni-Reward, um avanço em direção à modelagem de recompensa omni-modal generalista com suporte a preferências de formato livre, consistindo em: (1) Avaliação: Introduzimos o Omni-RewardBench, o primeiro benchmark omni-modal para RMs com preferências livres, abrangendo nove tarefas em cinco modalidades incluindo texto, imagem, vídeo, áudio e 3D; (2) Dados: Construímos o Omni-RewardData, um conjunto de dados de preferências multimodais compreendendo 248 mil pares de preferências gerais e 69 mil pares de ajuste por instrução para treinar RMs omni-modais generalistas; (3) Modelo: Propomos o Omni-RewardModel, que inclui tanto RMs discriminativos quanto generativos, e alcança desempenho sólido no Omni-RewardBench, bem como em outros benchmarks amplamente utilizados para modelagem de recompensa.
English
Reward models (RMs) play a critical role in aligning AI behaviors with human
preferences, yet they face two fundamental challenges: (1) Modality Imbalance,
where most RMs are mainly focused on text and image modalities, offering
limited support for video, audio, and other modalities; and (2) Preference
Rigidity, where training on fixed binary preference pairs fails to capture the
complexity and diversity of personalized preferences. To address the above
challenges, we propose Omni-Reward, a step toward generalist omni-modal reward
modeling with support for free-form preferences, consisting of: (1) Evaluation:
We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form
preferences, covering nine tasks across five modalities including text, image,
video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal
preference dataset comprising 248K general preference pairs and 69K
instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We
propose Omni-RewardModel, which includes both discriminative and generative
RMs, and achieves strong performance on Omni-RewardBench as well as other
widely used reward modeling benchmarks.