ChatPaper.aiChatPaper

Унифицированная модель персонализированного вознаграждения для визуальной генерации

Unified Personalized Reward Model for Vision Generation

February 2, 2026
Авторы: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI

Аннотация

Последние достижения в области мультимодальных моделей вознаграждения (reward models, RM) значительно стимулировали развитие визуальной генерации. Существующие подходы обычно используют моделирование предпочтений в стиле Брэдли-Терри или задействуют генеративные VLM в качестве судей, с последующей оптимизацией моделей визуальной генерации с помощью обучения с подкреплением. Однако современные RM имеют фундаментальные ограничения: они часто следуют универсальному подходу, который предполагает единое распределение предпочтений или опирается на фиксированные оценочные критерии. Как следствие, они нечувствительны к контент-специфичным визуальным признакам, что приводит к систематическому рассогласованию с субъективными и контекстно-зависимыми человеческими предпочтениями. Для решения этой проблемы, вдохновляясь человеческой оценкой, мы предлагаем UnifiedReward-Flex — унифицированную персонализированную модель вознаграждения для визуальной генерации, которая объединяет моделирование вознаграждения с гибким и контекстно-адаптивным рассуждением. Конкретно, получая промпт и сгенерированный визуальный контент, модель сначала интерпретирует семантический замысел и основывается на визуальных свидетельствах, а затем динамически строит иерархическую оценку, конкретизируя детализированные критерии в рамках как предзаданных, так и самостоятельно сгенерированных высокоуровневых аспектов. Наш конвейер обучения состоит из двух этапов: (1) сначала мы извлекаем струкрированные, высококачественные траектории рассуждений из передовых закрытых VLM для начальной настройки методом SFT, наделяя модель гибким и контекстно-адаптивным поведением рассуждений; (2) затем мы применяем прямую оптимизацию предпочтений (DPO) к тщательно отобранным парам предпочтений, чтобы дополнительно усилить достоверность рассуждений и дискриминативную согласованность. Для проверки эффективности мы интегрируем UnifiedReward-Flex в框架 GRPO для синтеза изображений и видео, и обширные результаты демонстрируют её превосходство.
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.
PDF161February 5, 2026