ChatPaper.aiChatPaper

Modello di Ricompensa Personalizzato Unificato per la Generazione Visiva

Unified Personalized Reward Model for Vision Generation

February 2, 2026
Autori: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI

Abstract

I recenti progressi nei modelli di reward multimodali (RM) hanno dato un impulso significativo allo sviluppo della generazione visiva. I framework esistenti adottano tipicamente una modellazione delle preferenze in stile Bradley-Terry o sfruttano modelli linguistici visivi (VLM) generativi come giudici, per poi ottimizzare i modelli di generazione visiva tramite apprendimento per rinforzo. Tuttavia, gli RM attuali presentano limitazioni intrinseche: seguono spesso un paradigma "one-size-fits-all" che presuppone una distribuzione di preferenze monolitica o si basa su griglie di valutazione fisse. Di conseguenza, sono insensibili agli indizi visivi specifici del contenuto, portando a un disallineamento sistematico con le preferenze umane, soggettive e dipendenti dal contesto. A tal fine, ispirati dalla valutazione umana, proponiamo UnifiedReward-Flex, un modello di reward personalizzato e unificato per la generazione visiva che unisce la modellazione del reward a un ragionamento flessibile e adattativo al contesto. Nello specifico, dato un prompt e il contenuto visivo generato, il modello interpreta prima l'intento semantico e si fonda sull'evidenza visiva, per poi costruire dinamicamente una valutazione gerarchica istanziando criteri granulari sia sotto dimensioni di alto livello predefinite che auto-generate. La nostra pipeline di addestramento segue un processo in due fasi: (1) distilliamo prima tracce di ragionamento strutturate e di alta qualità da VLM closed-source avanzati per avviare un SFT, dotando il modello di comportamenti di ragionamento flessibili e adattativi al contesto; (2) eseguiamo poi un'ottimizzazione diretta delle preferenze (DPO) su coppie di preferenze accuratamente selezionate per rafforzare ulteriormente la fedeltà del ragionamento e l'allineamento discriminativo. Per validare l'efficacia, integriamo UnifiedReward-Flex nel framework GRPO per la sintesi di immagini e video, e i risultati estensivi ne dimostrano la superiorità.
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.
PDF203March 19, 2026