UniGRPO : Optimisation de Politique Unifiée pour la Génération Visuelle Guidée par le Raisonnement

Résumé

Les modèles unifiés capables de génération entrelacée sont apparus comme un paradigme prometteur, la communauté convergeant de plus en plus vers la modélisation autorégressive pour le texte et le *flow matching* pour la génération d'images. Pour faire progresser cette direction, nous proposons un cadre d'apprentissage par renforcement unifié conçu pour la génération entrelacée. Nous validons notre approche sur son unité fondamentale : un seul cycle de génération d'image pilotée par un raisonnement, où le modèle commence par développer l'invite utilisateur via un raisonnement, suivi d'une synthèse d'image. En formulant ce processus de génération multimodale comme un Processus de Décision Markovien avec des récompenses terminales éparses, nous introduisons UniGRPO pour optimiser conjointement les politiques de génération de texte et d'image en utilisant GRPO. Adoptant une méthodologie minimaliste pour éviter la surconception, nous exploitons des recettes d'entraînement établies pour les deux modalités en intégrant de manière transparente le GRPO standard pour le raisonnement et FlowGRPO pour la synthèse visuelle. Pour garantir l'évolutivité vers une génération entrelacée multi-cycles, nous introduisons deux modifications critiques au FlowGRPO original : (1) l'élimination de l'orientation sans classifieur pour maintenir des déroulements linéaires et non branchés, ce qui est essentiel pour passer à des scénarios complexes impliquant des interactions multi-tours et une génération multi-conditions (par exemple, l'édition) ; et (2) le remplacement de la pénalité KL latente standard par une pénalité MSE directement sur les champs de vélocité, fournissant un signal de régularisation plus robuste et direct pour atténuer efficacement le *reward hacking*. Nos expériences démontrent que cette recette d'entraînement unifiée améliore significativement la qualité de la génération d'images grâce au raisonnement, fournissant une base de référence robuste et évolutive pour l'après-entraînement futur de modèles entièrement entrelacés.

English

Unified models capable of interleaved generation have emerged as a promising paradigm, with the community increasingly converging on autoregressive modeling for text and flow matching for image generation. To advance this direction, we propose a unified reinforcement learning framework tailored for interleaved generation. We validate our approach on its fundamental unit: a single round of reasoning-driven image generation, where the model first expands the user prompt through reasoning, followed by image synthesis. Formulating this multimodal generation process as a Markov Decision Process with sparse terminal rewards, we introduce UniGRPO to jointly optimize text and image generation policies using GRPO. Adopting a minimalist methodology to avoid over-design, we leverage established training recipes for both modalities by seamlessly integrating standard GRPO for reasoning and FlowGRPO for visual synthesis. To ensure scalability to multi-round interleaved generation, we introduce two critical modifications to the original FlowGRPO: (1) eliminating classifier-free guidance to maintain linear, unbranched rollouts, which is essential for scaling to complex scenarios involving multi-turn interactions and multi-condition generation (e.g., editing); and (2) replacing the standard latent KL penalty with an MSE penalty directly on the velocity fields, providing a more robust and direct regularization signal to mitigate reward hacking effectively. Our experiments demonstrate that this unified training recipe significantly enhances image generation quality through reasoning, providing a robust and scalable baseline for the future post-training of fully interleaved models.

UniGRPO : Optimisation de Politique Unifiée pour la Génération Visuelle Guidée par le Raisonnement

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Résumé

Support