UniGRPO: Унифицированная оптимизация стратегии для визуального генерации, управляемой рассуждениями

Аннотация

Унифицированные модели, способные к чередующейся генерации, стали перспективной парадигмой, при этом научное сообщество всё чаще конвергирует к авторегрессионному моделированию для текста и сопоставлению потоков (flow matching) для генерации изображений. Для развития этого направления мы предлагаем унифицированную архитектуру обучения с подкреплением, специально разработанную для чередующейся генерации. Мы проверяем наш подход на его фундаментальном элементе: одном цикле генерации изображения на основе рассуждений, в котором модель сначала расширяет пользовательский промпт путём логического вывода, а затем синтезирует изображение. Формулируя этот мультимодальный процесс генерации как марковский процесс принятия решений с разреженными терминальными наградами, мы представляем UniGRPO для совместной оптимизации политик генерации текста и изображений с использованием GRPO. Придерживаясь минималистичной методологии, чтобы избежать избыточного усложнения, мы используем устоявшиеся методики обучения для обеих модальностей, бесшовно интегрируя стандартный GRPO для логического вывода и FlowGRPO для визуального синтеза. Чтобы обеспечить масштабируемость для многоцикловой чередующейся генерации, мы вносим две ключевые модификации в оригинальный FlowGRPO: (1) отказ от генерации без классификатора для сохранения линейных, неразветвлённых траекторий, что необходимо для масштабирования в сложных сценариях, включающих многоходовое взаимодействие и генерацию по множественным условиям (например, редактирование); и (2) замену стандартного латентного KL-штрафа на MSE-штраф, применяемый непосредственно к полям скоростей, что обеспечивает более устойчивый и прямой сигнал регуляризации для эффективного подавления эксплуатации наград. Наши эксперименты демонстрируют, что данный унифицированный подход к обучению существенно повышает качество генерации изображений за счёт логического вывода, предоставляя надёжный и масштабируемый базис для последующего обучения полностью чередующихся моделей.

English

Unified models capable of interleaved generation have emerged as a promising paradigm, with the community increasingly converging on autoregressive modeling for text and flow matching for image generation. To advance this direction, we propose a unified reinforcement learning framework tailored for interleaved generation. We validate our approach on its fundamental unit: a single round of reasoning-driven image generation, where the model first expands the user prompt through reasoning, followed by image synthesis. Formulating this multimodal generation process as a Markov Decision Process with sparse terminal rewards, we introduce UniGRPO to jointly optimize text and image generation policies using GRPO. Adopting a minimalist methodology to avoid over-design, we leverage established training recipes for both modalities by seamlessly integrating standard GRPO for reasoning and FlowGRPO for visual synthesis. To ensure scalability to multi-round interleaved generation, we introduce two critical modifications to the original FlowGRPO: (1) eliminating classifier-free guidance to maintain linear, unbranched rollouts, which is essential for scaling to complex scenarios involving multi-turn interactions and multi-condition generation (e.g., editing); and (2) replacing the standard latent KL penalty with an MSE penalty directly on the velocity fields, providing a more robust and direct regularization signal to mitigate reward hacking effectively. Our experiments demonstrate that this unified training recipe significantly enhances image generation quality through reasoning, providing a robust and scalable baseline for the future post-training of fully interleaved models.

UniGRPO: Унифицированная оптимизация стратегии для визуального генерации, управляемой рассуждениями

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Аннотация

Support