UniGRPO: Optimización Unificada de Políticas para la Generación Visual Guiada por el Razonamiento

Resumen

Los modelos unificados capaces de generación entrelazada han surgido como un paradigma prometedor, con la comunidad convergiendo cada vez más en el modelado autoregresivo para texto y el *flow matching* para la generación de imágenes. Para avanzar en esta dirección, proponemos un marco unificado de aprendizaje por refuerzo adaptado para la generación entrelazada. Validamos nuestro enfoque en su unidad fundamental: una única ronda de generación de imágenes impulsada por razonamiento, donde el modelo primero expande el prompt del usuario mediante razonamiento, seguido de la síntesis de imágenes. Al formular este proceso de generación multimodal como un Proceso de Decisión de Markov con recompensas terminales dispersas, introducimos UniGRPO para optimizar conjuntamente las políticas de generación de texto e imágenes utilizando GRPO. Adoptando una metodología minimalista para evitar el sobre-diseño, aprovechamos recetas de entrenamiento establecidas para ambas modalidades integrando de manera fluida el GRPO estándar para el razonamiento y FlowGRPO para la síntesis visual. Para garantizar la escalabilidad a la generación entrelazada de múltiples rondas, introducimos dos modificaciones críticas al FlowGRPO original: (1) eliminar la guía libre de clasificador para mantener trayectorias lineales y sin ramificaciones, lo cual es esencial para escalar a escenarios complejos que involucran interacciones multiturno y generación multicondición (por ejemplo, edición); y (2) reemplazar la penalización KL latente estándar con una penalización MSE directamente sobre los campos de velocidad, proporcionando una señal de regularización más robusta y directa para mitigar eficazmente la explotación de recompensas. Nuestros experimentos demuestran que esta receta de entrenamiento unificada mejora significativamente la calidad de la generación de imágenes a través del razonamiento, proporcionando una base robusta y escalable para la futura fase de *post-training* de modelos completamente entrelazados.

English

Unified models capable of interleaved generation have emerged as a promising paradigm, with the community increasingly converging on autoregressive modeling for text and flow matching for image generation. To advance this direction, we propose a unified reinforcement learning framework tailored for interleaved generation. We validate our approach on its fundamental unit: a single round of reasoning-driven image generation, where the model first expands the user prompt through reasoning, followed by image synthesis. Formulating this multimodal generation process as a Markov Decision Process with sparse terminal rewards, we introduce UniGRPO to jointly optimize text and image generation policies using GRPO. Adopting a minimalist methodology to avoid over-design, we leverage established training recipes for both modalities by seamlessly integrating standard GRPO for reasoning and FlowGRPO for visual synthesis. To ensure scalability to multi-round interleaved generation, we introduce two critical modifications to the original FlowGRPO: (1) eliminating classifier-free guidance to maintain linear, unbranched rollouts, which is essential for scaling to complex scenarios involving multi-turn interactions and multi-condition generation (e.g., editing); and (2) replacing the standard latent KL penalty with an MSE penalty directly on the velocity fields, providing a more robust and direct regularization signal to mitigate reward hacking effectively. Our experiments demonstrate that this unified training recipe significantly enhances image generation quality through reasoning, providing a robust and scalable baseline for the future post-training of fully interleaved models.

UniGRPO: Optimización Unificada de Políticas para la Generación Visual Guiada por el Razonamiento

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Resumen

Support