Modelo Unificado de Recompensa Personalizada para Generación Visual
Unified Personalized Reward Model for Vision Generation
February 2, 2026
Autores: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI
Resumen
Los recientes avances en los modelos de recompensa multimodal (RM) han impulsado significativamente el desarrollo de la generación visual. Los marcos existentes suelen adoptar modelos de preferencia al estilo Bradley-Terry o aprovechar modelos de lenguaje visual (VLM) generativos como jueces, para posteriormente optimizar los modelos de generación visual mediante aprendizaje por refuerzo. Sin embargo, los RM actuales adolecen de limitaciones inherentes: a menudo siguen un paradigma único que asume una distribución de preferencias monolítica o se basa en rúbricas de evaluación fijas. Como resultado, son insensibles a las señales visuales específicas del contenido, lo que conduce a una desalineación sistemática con las preferencias humanas, subjetivas y dependientes del contexto. Inspirándonos en la evaluación humana, proponemos UnifiedReward-Flex, un modelo de recompensa personalizado unificado para la generación visual que combina el modelado de recompensas con un razonamiento flexible y adaptable al contexto. Específicamente, dado un *prompt* y el contenido visual generado, primero interpreta la intención semántica y se fundamenta en la evidencia visual, luego construye dinámicamente una evaluación jerárquica instanciando criterios granulares bajo dimensiones de alto nivel predefinidas y auto-generadas. Nuestro pipeline de entrenamiento sigue un proceso de dos etapas: (1) primero destilamos trazas de razonamiento estructuradas y de alta calidad de VLM avanzados de código cerrado para impulsar el Fine-Tuning Supervisado (SFT), dotando al modelo de comportamientos de razonamiento flexibles y adaptables al contexto; (2) luego realizamos una optimización de preferencia directa (DPO) en pares de preferencias cuidadosamente seleccionados para fortalecer aún más la fidelidad del razonamiento y la alineación discriminativa. Para validar la eficacia, integramos UnifiedReward-Flex en el marco GRPO para la síntesis de imágenes y videos, y los extensos resultados demuestran su superioridad.
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.