Консолидация обучения с подкреплением для мультимодальных моделей дискретной диффузии
Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models
October 3, 2025
Авторы: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye
cs.AI
Аннотация
Оптимизация дискретных диффузионных моделей (DDM) с использованием вознаграждений остается сложной задачей: неавторегрессивная парадигма делает важность выборки неразрешимой, а процесс rollout — сложным, что затрудняет применение методов обучения с подкреплением, таких как Group Relative Policy Optimization (GRPO). В данном исследовании мы представляем MaskGRPO — первый жизнеспособный подход, позволяющий масштабировать многомодальное обучение с подкреплением в дискретных диффузионных моделях с эффективной важностью выборки и адаптацией для конкретных модальностей. Для этого мы сначала уточняем теоретические основы DDMs, что способствует построению оценщика важности, который учитывает значимые колебания токенов для обновления градиентов. Затем мы тщательно адаптировали метод rollout для визуальных последовательностей, что обеспечивает разнообразие завершений и надежные градиенты оптимизации. На тестах по математическим рассуждениям, программированию и визуальной генерации MaskGRPO демонстрирует более стабильные и эффективные обновления, приводя к улучшенной производительности в рассуждениях и более высокому качеству генерации. Это исследование устанавливает MaskGRPO как систематический подход к оптимизации политик и первый практический метод для дискретизированной визуальной диффузии.
English
Optimizing discrete diffusion model (DDM) with rewards remains a challenge:
the non-autoregressive paradigm makes importance sampling intractable and
rollout complex, puzzling reinforcement learning methods such as Group Relative
Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first
viable approach to enable scalable multimodal reinforcement learning in
discrete diffusion with effective importance sampling and modality-specific
adaptations. To this end, we first clarify the theoretical foundation for DDMs,
which facilitates building an importance estimator that captures valuable token
fluctuation for gradient updates. We then delicately tailored the rollout
method for visual sequences, which yields diverse completions and reliable
optimization gradients. Upon math reasoning, coding, and visual generation
benchmarks, MaskGRPO brings more stable and efficient updates, leading to
stronger reasoning performance and better generation quality. This study
establishes MaskGRPO as a systematic policy optimization approach and the first
practical way for discretized visual diffusion.