ChatPaper.aiChatPaper

Vereinheitlichtes personalisiertes Belohnungsmodell für die Bildgenerierung

Unified Personalized Reward Model for Vision Generation

February 2, 2026
papers.authors: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI

papers.abstract

Jüngste Fortschritte bei multimodalen Belohnungsmodellen (RMs) haben die Entwicklung der visuellen Generierung erheblich vorangetrieben. Bestehende Frameworks verwenden typischerweise Bradley-Terry-artige Präferenzmodellierung oder setzen generative VLMs als Bewerter ein und optimieren anschließend visuelle Generierungsmodelle durch Reinforcement Learning. Allerdings leiden aktuelle RMs unter inhärenten Limitationen: Sie folgen oft einem Einheitsansatz, der von einer einheitlichen Präferenzverteilung ausgeht oder auf festen Bewertungskriterien basiert. Infolgedessen sind sie unempfindlich gegenüber inhalts-spezifischen visuellen Hinweisen, was zu systematischen Fehlanpassungen an subjektive und kontextabhängige menschliche Präferenzen führt. Inspiriert von der menschlichen Bewertung schlagen wir daher UnifiedReward-Flex vor, ein vereinheitlichtes personalisiertes Belohnungsmodell für die Bildgenerierung, das Belohnungsmodellierung mit flexiblem und kontextadaptivem Reasoning verbindet. Konkret interpretiert das Modell bei gegebenem Prompt und generiertem visuellen Inhalt zunächst die semantische Absicht und verankert diese in visuellen Evidenzen, um dann dynamisch eine hierarchische Bewertung durch Instanziierung feingranularer Kriterien unter sowohl vordefinierten als auch selbst-generierten übergeordneten Dimensionen zu konstruieren. Unser Trainingsprozess folgt einem zweistufigen Ablauf: (1) Zunächst destillieren wir strukturierte, hochwertige Reasoning-Traces aus fortschrittlichen Closed-Source-VLMs, um das SFT zu bootstrappen und dem Modell flexibles, kontextadaptives Reasoning-Verhalten zu verleihen; (2) Anschließend führen wir Direct Preference Optimization (DPO) anhand sorgfältig kuratierter Präferenzpaare durch, um die Reasoning-Treue und diskriminative Ausrichtung weiter zu verstärken. Um die Wirksamkeit zu validieren, integrieren wir UnifiedReward-Flex in das GRPO-Framework für Bild- und Videosynthese. Umfangreiche Ergebnisse demonstrieren seine Überlegenheit.
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.
PDF161February 5, 2026