Modelo de Recompensa Personalizada Unificada para Geração Visual

Resumo

Os recentes avanços em modelos de recompensa multimodal (RMs) têm impulsionado significativamente o desenvolvimento da geração visual. As estruturas existentes normalmente adotam a modelagem de preferências no estilo Bradley-Terry ou aproveitam VLMs generativos como juízes, otimizando subsequentemente os modelos de geração visual por meio de aprendizado por reforço. No entanto, os RMs atuais sofrem de limitações inerentes: eles frequentemente seguem um paradigma único que assume uma distribuição de preferência monolítica ou depende de rubricas de avaliação fixas. Como resultado, são insensíveis a pistas visuais específicas do conteúdo, levando a um desalinhamento sistemático com as preferências humanas subjetivas e dependentes do contexto. Para tanto, inspirados pela avaliação humana, propomos o UnifiedReward-Flex, um modelo de recompensa personalizado e unificado para geração visual que acopla a modelagem de recompensa com um raciocínio flexível e adaptativo ao contexto. Especificamente, dado um prompt e o conteúdo visual gerado, ele primeiro interpreta a intenção semântica e se baseia em evidências visuais, depois constrói dinamicamente uma avaliação hierárquica instanciando critérios refinados sob dimensões de alto nível predefinidas e autogeradas. Nosso pipeline de treinamento segue um processo de duas etapas: (1) primeiro destilamos traços de raciocínio estruturados e de alta qualidade de VLMs avançados de código fechado para inicializar o SFT, equipando o modelo com comportamentos de raciocínio flexíveis e adaptativos ao contexto; (2) em seguida, realizamos a otimização direta de preferência (DPO) em pares de preferência cuidadosamente selecionados para fortalecer ainda mais a fidelidade do raciocínio e o alinhamento discriminativo. Para validar a eficácia, integramos o UnifiedReward-Flex na estrutura GRPO para síntese de imagem e vídeo, e resultados extensivos demonstram sua superioridade.

English

Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.

Modelo de Recompensa Personalizada Unificada para Geração Visual

Unified Personalized Reward Model for Vision Generation

Resumo

Support