Modèle de Récompense Personnalisé Unifié pour la Génération Visuelle
Unified Personalized Reward Model for Vision Generation
February 2, 2026
papers.authors: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI
papers.abstract
Les avancées récentes dans les modèles de récompense multimodaux ont significativement propulsé le développement de la génération visuelle. Les cadres existants adoptent généralement une modélisation des préférences de type Bradley-Terry ou exploitent des modèles de langage visuel génératifs comme juges, puis optimisent les modèles de génération visuelle par apprentissage par renforcement. Cependant, les modèles de récompense actuels souffrent de limitations inhérentes : ils suivent souvent un paradigme universel qui postule une distribution de préférences monolithique ou repose sur des grilles d'évaluation fixes. Par conséquent, ils sont insensibles aux indices visuels spécifiques au contenu, conduisant à un désalignement systématique avec les préférences humaines subjectives et contextuelles. Pour remédier à cela, en nous inspirant de l'évaluation humaine, nous proposons UnifiedReward-Flex, un modèle de récompense personnalisé unifié pour la génération visuelle qui couple la modélisation des récompenses à un raisonnement flexible et adaptatif au contexte. Plus précisément, étant donné une instruction et le contenu visuel généré, le modèle interprète d'abord l'intention sémantique et s'appuie sur des preuves visuelles, puis construit dynamiquement une évaluation hiérarchique en instanciant des critères granulaires sous des dimensions de haut niveau prédéfinies et auto-générées. Notre pipeline d'entraînement suit un processus en deux étapes : (1) nous distillons d'abord des traces de raisonnement structurées et de haute qualité à partir de modèles de langage visuel propriétaires avancés pour amorcer un fine-tuning supervisé, dotant le modèle de comportements de raisonnement flexibles et adaptatifs ; (2) nous effectuons ensuite une optimisation directe des préférences sur des paires de préférences soigneusement sélectionnées pour renforcer la fidélité du raisonnement et l'alignement discriminatif. Pour valuer l'efficacité, nous intégrons UnifiedReward-Flex dans le cadre GRPO pour la synthèse d'images et de vidéos, et des résultats approfondis démontrent sa supériorité.
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.