Consolidatie van Reinforcement Learning voor Multimodale Discrete Diffusiemodellen
Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models
October 3, 2025
Auteurs: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye
cs.AI
Samenvatting
Het optimaliseren van discrete diffusiemodellen (DDM) met beloningen blijft een uitdaging:
het niet-autoregressieve paradigma maakt importance sampling onhanteerbaar en
rollouts complex, wat versterkingsleermethoden zoals Group Relative
Policy Optimization (GRPO) verwarrend maakt. In deze studie introduceren we MaskGRPO, de eerste
haalbare aanpak om schaalbare multimodale versterkingsleren mogelijk te maken in
discrete diffusie met effectief importance sampling en modality-specifieke
aanpassingen. Hiertoe verduidelijken we eerst de theoretische basis voor DDMs,
wat het mogelijk maakt om een importance estimator te bouwen die waardevolle tokenfluctuaties
vastlegt voor gradientupdates. Vervolgens hebben we de rolloutmethode
verfijnd voor visuele sequenties, wat diverse voltooiingen en betrouwbare
optimalisatiegradiënten oplevert. Op basis van wiskundige redenering, codering en visuele generatie
benchmarks brengt MaskGRPO stabielere en efficiëntere updates, wat leidt tot
sterkere redeneerprestaties en betere generatiekwaliteit. Deze studie
vestigt MaskGRPO als een systematische beleidsoptimalisatiebenadering en de eerste
praktische manier voor gediscretiseerde visuele diffusie.
English
Optimizing discrete diffusion model (DDM) with rewards remains a challenge:
the non-autoregressive paradigm makes importance sampling intractable and
rollout complex, puzzling reinforcement learning methods such as Group Relative
Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first
viable approach to enable scalable multimodal reinforcement learning in
discrete diffusion with effective importance sampling and modality-specific
adaptations. To this end, we first clarify the theoretical foundation for DDMs,
which facilitates building an importance estimator that captures valuable token
fluctuation for gradient updates. We then delicately tailored the rollout
method for visual sequences, which yields diverse completions and reliable
optimization gradients. Upon math reasoning, coding, and visual generation
benchmarks, MaskGRPO brings more stable and efficient updates, leading to
stronger reasoning performance and better generation quality. This study
establishes MaskGRPO as a systematic policy optimization approach and the first
practical way for discretized visual diffusion.