Consolidation de l'apprentissage par renforcement pour les modèles de diffusion discrète multimodale
Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models
October 3, 2025
papers.authors: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye
cs.AI
papers.abstract
L'optimisation des modèles de diffusion discrète (DDM) avec des récompenses reste un défi : le paradigme non autorégressif rend l'échantillonnage d'importance difficile à traiter et le déploiement complexe, ce qui embrouille les méthodes d'apprentissage par renforcement telles que l'Optimisation Relative de Politique de Groupe (GRPO). Dans cette étude, nous introduisons MaskGRPO, la première approche viable permettant un apprentissage par renforcement multimodal scalable dans la diffusion discrète, avec un échantillonnage d'importance efficace et des adaptations spécifiques aux modalités. Pour ce faire, nous clarifions d'abord les fondements théoriques des DDM, ce qui facilite la construction d'un estimateur d'importance capturant les fluctuations significatives des tokens pour les mises à jour de gradient. Nous avons ensuite soigneusement adapté la méthode de déploiement pour les séquences visuelles, ce qui produit des complétions diversifiées et des gradients d'optimisation fiables. Sur des benchmarks de raisonnement mathématique, de codage et de génération visuelle, MaskGRPO apporte des mises à jour plus stables et efficaces, conduisant à une meilleure performance de raisonnement et à une qualité de génération supérieure. Cette étude établit MaskGRPO comme une approche systématique d'optimisation de politique et la première méthode pratique pour la diffusion visuelle discrétisée.
English
Optimizing discrete diffusion model (DDM) with rewards remains a challenge:
the non-autoregressive paradigm makes importance sampling intractable and
rollout complex, puzzling reinforcement learning methods such as Group Relative
Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first
viable approach to enable scalable multimodal reinforcement learning in
discrete diffusion with effective importance sampling and modality-specific
adaptations. To this end, we first clarify the theoretical foundation for DDMs,
which facilitates building an importance estimator that captures valuable token
fluctuation for gradient updates. We then delicately tailored the rollout
method for visual sequences, which yields diverse completions and reliable
optimization gradients. Upon math reasoning, coding, and visual generation
benchmarks, MaskGRPO brings more stable and efficient updates, leading to
stronger reasoning performance and better generation quality. This study
establishes MaskGRPO as a systematic policy optimization approach and the first
practical way for discretized visual diffusion.