Омни-Вознаграждение: к созданию универсального омни-модального моделирования вознаграждения на основе произвольных предпочтений
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
October 27, 2025
Авторы: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Аннотация
Модели вознаграждения (Reward Models, RMs) играют ключевую роль в согласовании поведения ИИ с человеческими предпочтениями, однако они сталкиваются с двумя фундаментальными проблемами: (1) *Модальный дисбаланс*, при котором большинство RMs в основном сосредоточены на текстовой и визуальной модальностях, предлагая ограниченную поддержку для видео, аудио и других модальностей; и (2) *Жёсткость предпочтений*, когда обучение на фиксированных бинарных парах предпочтений не позволяет уловить сложность и разнообразие персонализированных предпочтений. Для решения указанных проблем мы предлагаем Omni-Reward — шаг в сторону создания универсальных омни-модальных моделей вознаграждения с поддержкой свободных форм предпочтений, который включает: (1) *Оценку*: мы представляем Omni-RewardBench, первый омни-модальный бенчмарк для RMs со свободными формами предпочтений, охватывающий девять задач в пяти модальностях, включая текст, изображения, видео, аудио и 3D; (2) *Данные*: мы создаём Omni-RewardData, мультимодальный набор данных предпочтений, содержащий 248 тыс. общих пар предпочтений и 69 тыс. пар для инструктивного тонкого настроения, предназначенных для обучения универсальных омни-модальных RMs; (3) *Модель*: мы предлагаем Omni-RewardModel, которая включает как дискриминативные, так и генеративные RMs и демонстрирует высокую производительность на Omni-RewardBench, а также на других широко используемых бенчмарках для моделирования вознаграждения.
English
Reward models (RMs) play a critical role in aligning AI behaviors with human
preferences, yet they face two fundamental challenges: (1) Modality Imbalance,
where most RMs are mainly focused on text and image modalities, offering
limited support for video, audio, and other modalities; and (2) Preference
Rigidity, where training on fixed binary preference pairs fails to capture the
complexity and diversity of personalized preferences. To address the above
challenges, we propose Omni-Reward, a step toward generalist omni-modal reward
modeling with support for free-form preferences, consisting of: (1) Evaluation:
We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form
preferences, covering nine tasks across five modalities including text, image,
video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal
preference dataset comprising 248K general preference pairs and 69K
instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We
propose Omni-RewardModel, which includes both discriminative and generative
RMs, and achieves strong performance on Omni-RewardBench as well as other
widely used reward modeling benchmarks.