Omni-Reward: Hacia un Modelo Generalista de Recompensa Omnimodal con Preferencias de Formato Libre
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
October 27, 2025
Autores: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Resumen
Los modelos de recompensa (RMs) desempeñan un papel crítico en la alineación de los comportamientos de la IA con las preferencias humanas, pero enfrentan dos desafíos fundamentales: (1) Desequilibrio de Modalidades, donde la mayoría de los RMs se centran principalmente en las modalidades de texto e imagen, ofreciendo soporte limitado para video, audio y otras modalidades; y (2) Rigidez de Preferencias, donde el entrenamiento en pares de preferencias binarias fijas no logra capturar la complejidad y diversidad de las preferencias personalizadas. Para abordar estos desafíos, proponemos Omni-Reward, un paso hacia el modelado de recompensas omni-modal generalista con soporte para preferencias de formato libre, que consta de: (1) Evaluación: Presentamos Omni-RewardBench, el primer benchmark de RMs omni-modal con preferencias de formato libre, que cubre nueve tareas en cinco modalidades incluyendo texto, imagen, video, audio y 3D; (2) Datos: Construimos Omni-RewardData, un conjunto de datos de preferencias multimodales que comprende 248K pares de preferencias generales y 69K pares de ajuste por instrucciones para entrenar RMs omni-modales generalistas; (3) Modelo: Proponemos Omni-RewardModel, que incluye tanto RMs discriminativos como generativos, y logra un rendimiento sólido en Omni-RewardBench así como en otros benchmarks de modelado de recompensas ampliamente utilizados.
English
Reward models (RMs) play a critical role in aligning AI behaviors with human
preferences, yet they face two fundamental challenges: (1) Modality Imbalance,
where most RMs are mainly focused on text and image modalities, offering
limited support for video, audio, and other modalities; and (2) Preference
Rigidity, where training on fixed binary preference pairs fails to capture the
complexity and diversity of personalized preferences. To address the above
challenges, we propose Omni-Reward, a step toward generalist omni-modal reward
modeling with support for free-form preferences, consisting of: (1) Evaluation:
We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form
preferences, covering nine tasks across five modalities including text, image,
video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal
preference dataset comprising 248K general preference pairs and 69K
instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We
propose Omni-RewardModel, which includes both discriminative and generative
RMs, and achieves strong performance on Omni-RewardBench as well as other
widely used reward modeling benchmarks.