UniGRPO: Ottimizzazione Unificata delle Politiche per la Generazione Visiva Guidata dal Ragionamento

Abstract

I modelli unificati in grado di generazione intervallata sono emersi come un paradigma promettente, con la comunità che converge sempre più sulla modellazione autoregressiva per il testo e sul *flow matching* per la generazione di immagini. Per far progredire questa direzione, proponiamo un framework unificato di apprendimento per rinforzo progettato per la generazione intervallata. Convalidiamo il nostro approccio sulla sua unità fondamentale: un singolo ciclo di generazione di immagini guidata dal ragionamento, in cui il modello prima espande il prompt dell'utente attraverso il ragionamento, seguito dalla sintesi dell'immagine. Formulando questo processo di generazione multimodale come un Processo Decisionale di Markov con ricompense terminali sparse, introduciamo UniGRPO per ottimizzare congiuntamente le politiche di generazione del testo e dell'immagine utilizzando GRPO. Adottando una metodologia minimalista per evitare un eccesso di progettazione, sfruttiamo protocolli di addestramento consolidati per entrambe le modalità integrando perfettamente GRPO standard per il ragionamento e FlowGRPO per la sintesi visiva. Per garantire la scalabilità alla generazione intervallata multi-ciclo, introduciamo due modifiche critiche al FlowGRPO originale: (1) eliminare la *classifier-free guidance* per mantenere rollout lineari e non ramificati, essenziale per scalare a scenari complessi che coinvolgono interazioni multi-turno e generazione multi-condizione (ad esempio, l'editing); e (2) sostituire la penalità KL latente standard con una penalità MSE direttamente sui campi di velocità, fornendo un segnale di regolarizzazione più robusto e diretto per mitigare efficacemente il *reward hacking*. I nostri esperimenti dimostrano che questo protocollo di addestramento unificato migliora significativamente la qualità della generazione delle immagini attraverso il ragionamento, fornendo una baseline robusta e scalabile per la futura fase di *post-training* di modelli completamente intervallati.

English

Unified models capable of interleaved generation have emerged as a promising paradigm, with the community increasingly converging on autoregressive modeling for text and flow matching for image generation. To advance this direction, we propose a unified reinforcement learning framework tailored for interleaved generation. We validate our approach on its fundamental unit: a single round of reasoning-driven image generation, where the model first expands the user prompt through reasoning, followed by image synthesis. Formulating this multimodal generation process as a Markov Decision Process with sparse terminal rewards, we introduce UniGRPO to jointly optimize text and image generation policies using GRPO. Adopting a minimalist methodology to avoid over-design, we leverage established training recipes for both modalities by seamlessly integrating standard GRPO for reasoning and FlowGRPO for visual synthesis. To ensure scalability to multi-round interleaved generation, we introduce two critical modifications to the original FlowGRPO: (1) eliminating classifier-free guidance to maintain linear, unbranched rollouts, which is essential for scaling to complex scenarios involving multi-turn interactions and multi-condition generation (e.g., editing); and (2) replacing the standard latent KL penalty with an MSE penalty directly on the velocity fields, providing a more robust and direct regularization signal to mitigate reward hacking effectively. Our experiments demonstrate that this unified training recipe significantly enhances image generation quality through reasoning, providing a robust and scalable baseline for the future post-training of fully interleaved models.

UniGRPO: Ottimizzazione Unificata delle Politiche per la Generazione Visiva Guidata dal Ragionamento

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Abstract

Support