ChatPaper.aiChatPaper

Modelo de Recompensa Personalizada Unificada para Geração Visual

Unified Personalized Reward Model for Vision Generation

February 2, 2026
Autores: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
cs.AI

Resumo

Os recentes avanços em modelos de recompensa multimodal (RMs) têm impulsionado significativamente o desenvolvimento da geração visual. As estruturas existentes normalmente adotam a modelagem de preferências no estilo Bradley-Terry ou aproveitam VLMs generativos como juízes, otimizando subsequentemente os modelos de geração visual por meio de aprendizado por reforço. No entanto, os RMs atuais sofrem de limitações inerentes: eles frequentemente seguem um paradigma único que assume uma distribuição de preferência monolítica ou depende de rubricas de avaliação fixas. Como resultado, são insensíveis a pistas visuais específicas do conteúdo, levando a um desalinhamento sistemático com as preferências humanas subjetivas e dependentes do contexto. Para tanto, inspirados pela avaliação humana, propomos o UnifiedReward-Flex, um modelo de recompensa personalizado e unificado para geração visual que acopla a modelagem de recompensa com um raciocínio flexível e adaptativo ao contexto. Especificamente, dado um prompt e o conteúdo visual gerado, ele primeiro interpreta a intenção semântica e se baseia em evidências visuais, depois constrói dinamicamente uma avaliação hierárquica instanciando critérios refinados sob dimensões de alto nível predefinidas e autogeradas. Nosso pipeline de treinamento segue um processo de duas etapas: (1) primeiro destilamos traços de raciocínio estruturados e de alta qualidade de VLMs avançados de código fechado para inicializar o SFT, equipando o modelo com comportamentos de raciocínio flexíveis e adaptativos ao contexto; (2) em seguida, realizamos a otimização direta de preferência (DPO) em pares de preferência cuidadosamente selecionados para fortalecer ainda mais a fidelidade do raciocínio e o alinhamento discriminativo. Para validar a eficácia, integramos o UnifiedReward-Flex na estrutura GRPO para síntese de imagem e vídeo, e resultados extensivos demonstram sua superioridade.
English
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.
PDF203March 19, 2026