UniGRPO: Otimização de Políticas Unificada para Geração Visual Orientada por Raciocínio

Resumo

Modelos unificados capazes de geração intercalada surgiram como um paradigma promissor, com a comunidade convergindo cada vez mais na modelagem autoregressiva para texto e no *flow matching* para geração de imagens. Para avançar nesta direção, propomos uma estrutura unificada de aprendizagem por reforço adaptada para geração intercalada. Validamos nossa abordagem na sua unidade fundamental: uma única rodada de geração de imagens orientada por raciocínio, na qual o modelo primeiro expande a instrução do usuário através de raciocínio, seguido pela síntese da imagem. Formulando este processo de geração multimodal como um Processo de Decisão Markoviano com recompensas terminais esparsas, introduzimos o UniGRPO para otimizar conjuntamente as políticas de geração de texto e imagem usando GRPO. Adotando uma metodologia minimalista para evitar *over-design*, aproveitamos receitas de treinamento consolidadas para ambas as modalidades, integrando perfeitamente o GRPO padrão para o raciocínio e o FlowGRPO para a síntese visual. Para garantir escalabilidade para a geração intercalada multi-rodada, introduzimos duas modificações críticas ao FlowGRPO original: (1) eliminamos a orientação livre de classificador (*classifier-free guidance*) para manter *rollouts* lineares e sem ramificação, o que é essencial para escalar para cenários complexos envolvendo interações multi-turno e geração multi-condição (por exemplo, edição); e (2) substituímos a penalidade KL latente padrão por uma penalidade MSE diretamente nos campos de velocidade, fornecendo um sinal de regularização mais robusto e direto para mitigar efetivamente a exploração de recompensas (*reward hacking*). Nossos experimentos demonstram que esta receita de treinamento unificada melhora significativamente a qualidade da geração de imagens através do raciocínio, fornecendo uma base robusta e escalável para o futuro pós-treinamento de modelos totalmente intercalados.

English

Unified models capable of interleaved generation have emerged as a promising paradigm, with the community increasingly converging on autoregressive modeling for text and flow matching for image generation. To advance this direction, we propose a unified reinforcement learning framework tailored for interleaved generation. We validate our approach on its fundamental unit: a single round of reasoning-driven image generation, where the model first expands the user prompt through reasoning, followed by image synthesis. Formulating this multimodal generation process as a Markov Decision Process with sparse terminal rewards, we introduce UniGRPO to jointly optimize text and image generation policies using GRPO. Adopting a minimalist methodology to avoid over-design, we leverage established training recipes for both modalities by seamlessly integrating standard GRPO for reasoning and FlowGRPO for visual synthesis. To ensure scalability to multi-round interleaved generation, we introduce two critical modifications to the original FlowGRPO: (1) eliminating classifier-free guidance to maintain linear, unbranched rollouts, which is essential for scaling to complex scenarios involving multi-turn interactions and multi-condition generation (e.g., editing); and (2) replacing the standard latent KL penalty with an MSE penalty directly on the velocity fields, providing a more robust and direct regularization signal to mitigate reward hacking effectively. Our experiments demonstrate that this unified training recipe significantly enhances image generation quality through reasoning, providing a robust and scalable baseline for the future post-training of fully interleaved models.

UniGRPO: Otimização de Políticas Unificada para Geração Visual Orientada por Raciocínio

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Resumo

Support