Omni-Reward: Hacia un Modelo Generalista de Recompensa Omnimodal con Preferencias de Formato Libre

Resumen

Los modelos de recompensa (RMs) desempeñan un papel crítico en la alineación de los comportamientos de la IA con las preferencias humanas, pero enfrentan dos desafíos fundamentales: (1) Desequilibrio de Modalidades, donde la mayoría de los RMs se centran principalmente en las modalidades de texto e imagen, ofreciendo soporte limitado para video, audio y otras modalidades; y (2) Rigidez de Preferencias, donde el entrenamiento en pares de preferencias binarias fijas no logra capturar la complejidad y diversidad de las preferencias personalizadas. Para abordar estos desafíos, proponemos Omni-Reward, un paso hacia el modelado de recompensas omni-modal generalista con soporte para preferencias de formato libre, que consta de: (1) Evaluación: Presentamos Omni-RewardBench, el primer benchmark de RMs omni-modal con preferencias de formato libre, que cubre nueve tareas en cinco modalidades incluyendo texto, imagen, video, audio y 3D; (2) Datos: Construimos Omni-RewardData, un conjunto de datos de preferencias multimodales que comprende 248K pares de preferencias generales y 69K pares de ajuste por instrucciones para entrenar RMs omni-modales generalistas; (3) Modelo: Proponemos Omni-RewardModel, que incluye tanto RMs discriminativos como generativos, y logra un rendimiento sólido en Omni-RewardBench así como en otros benchmarks de modelado de recompensas ampliamente utilizados.

English

Reward models (RMs) play a critical role in aligning AI behaviors with human preferences, yet they face two fundamental challenges: (1) Modality Imbalance, where most RMs are mainly focused on text and image modalities, offering limited support for video, audio, and other modalities; and (2) Preference Rigidity, where training on fixed binary preference pairs fails to capture the complexity and diversity of personalized preferences. To address the above challenges, we propose Omni-Reward, a step toward generalist omni-modal reward modeling with support for free-form preferences, consisting of: (1) Evaluation: We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form preferences, covering nine tasks across five modalities including text, image, video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal preference dataset comprising 248K general preference pairs and 69K instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We propose Omni-RewardModel, which includes both discriminative and generative RMs, and achieves strong performance on Omni-RewardBench as well as other widely used reward modeling benchmarks.

Omni-Reward: Hacia un Modelo Generalista de Recompensa Omnimodal con Preferencias de Formato Libre

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

Resumen

Support