Modello di Ricompensa Personalizzato Unificato per la Generazione Visiva

Abstract

I recenti progressi nei modelli di reward multimodali (RM) hanno dato un impulso significativo allo sviluppo della generazione visiva. I framework esistenti adottano tipicamente una modellazione delle preferenze in stile Bradley-Terry o sfruttano modelli linguistici visivi (VLM) generativi come giudici, per poi ottimizzare i modelli di generazione visiva tramite apprendimento per rinforzo. Tuttavia, gli RM attuali presentano limitazioni intrinseche: seguono spesso un paradigma "one-size-fits-all" che presuppone una distribuzione di preferenze monolitica o si basa su griglie di valutazione fisse. Di conseguenza, sono insensibili agli indizi visivi specifici del contenuto, portando a un disallineamento sistematico con le preferenze umane, soggettive e dipendenti dal contesto. A tal fine, ispirati dalla valutazione umana, proponiamo UnifiedReward-Flex, un modello di reward personalizzato e unificato per la generazione visiva che unisce la modellazione del reward a un ragionamento flessibile e adattativo al contesto. Nello specifico, dato un prompt e il contenuto visivo generato, il modello interpreta prima l'intento semantico e si fonda sull'evidenza visiva, per poi costruire dinamicamente una valutazione gerarchica istanziando criteri granulari sia sotto dimensioni di alto livello predefinite che auto-generate. La nostra pipeline di addestramento segue un processo in due fasi: (1) distilliamo prima tracce di ragionamento strutturate e di alta qualità da VLM closed-source avanzati per avviare un SFT, dotando il modello di comportamenti di ragionamento flessibili e adattativi al contesto; (2) eseguiamo poi un'ottimizzazione diretta delle preferenze (DPO) su coppie di preferenze accuratamente selezionate per rafforzare ulteriormente la fedeltà del ragionamento e l'allineamento discriminativo. Per validare l'efficacia, integriamo UnifiedReward-Flex nel framework GRPO per la sintesi di immagini e video, e i risultati estensivi ne dimostrano la superiorità.

English

Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.

Modello di Ricompensa Personalizzato Unificato per la Generazione Visiva

Unified Personalized Reward Model for Vision Generation

Abstract

Support