Verenigd Gepersonaliseerd Beloningsmodel voor Visuele Generatie
Unified Personalized Reward Model for Vision Generation
February 2, 2026
Auteurs: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale beloningsmodellen (RMs) hebben de vooruitgang in visuele generatie aanzienlijk versneld. Bestaande frameworks hanteren typisch Bradley-Terry-stijl preferentiemodellering of benutten generatieve VLMs als beoordelaars, om vervolgens visuele generatiemodellen te optimaliseren via reinforcement learning. Huidige RMs kampen echter met inherente beperkingen: zij volgen vaak een one-size-fits-all paradigma dat uitgaat van een monolitische preferentiedistributie of steunt op vaste beoordelingsrubrieken. Hierdoor zijn zij ongevoelig voor content-specifieke visuele aanwijzingen, wat leidt tot een systematische misalignering met subjectieve en contextafhankelijke menselijke voorkeuren. Geïnspireerd door menselijke beoordeling, stellen wij daarom UnifiedReward-Flex voor, een verenigd gepersonaliseerd beloningsmodel voor visuele generatie dat beloningsmodellering koppelt aan flexibele en contextadaptieve redenering. Concreet interpreteert het model, gegeven een prompt en de gegenereerde visuele inhoud, eerst de semantische intentie en grondt dit op visueel bewijs, om vervolgens dynamisch een hiërarchische beoordeling op te zetten door het instantiëren van fijnmazige criteria onder zowel vooraf gedefinieerde als zelf gegenereerde hoog-niveau dimensies. Onze trainingspijplijn volgt een tweefasenproces: (1) eerst distilleren we gestructureerde, hoogwaardige redeneersporen uit geavanceerde closed-source VLMs om SFT op te starten, waardoor het model flexibel en contextadaptief redeneergedrag verkrijgt; (2) vervolgens voeren we direct preference optimization (DPO) uit op zorgvuldig samengestelde preferentieparen om de redeneertrouw en discriminerende alignering verder te versterken. Om de effectiviteit te valideren, integreren we UnifiedReward-Flex in het GRPO-framework voor beeld- en videosynthese, en uitgebreide resultaten tonen de superioriteit ervan aan.
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.