ChatPaper.aiChatPaper

Consolidamento dell'Apprendimento per Rinforzo nei Modelli di Diffusione Discreta Multimodale

Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models

October 3, 2025
Autori: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye
cs.AI

Abstract

Ottimizzare i modelli di diffusione discreta (DDM) con ricompense rimane una sfida: il paradigma non autoregressivo rende il campionamento di importanza intrattabile e il rollout complesso, confondendo i metodi di apprendimento per rinforzo come l'ottimizzazione relativa delle politiche di gruppo (GRPO). In questo studio, introduciamo MaskGRPO, il primo approccio praticabile per abilitare un apprendimento per rinforzo multimodale scalabile nella diffusione discreta con un efficace campionamento di importanza e adattamenti specifici per modalità. A tal fine, chiariamo innanzitutto le basi teoriche per i DDM, che facilitano la costruzione di uno stimatore di importanza in grado di catturare fluttuazioni di token significative per gli aggiornamenti del gradiente. Successivamente, abbiamo adattato con cura il metodo di rollout per sequenze visive, ottenendo completamenti diversificati e gradienti di ottimizzazione affidabili. Su benchmark di ragionamento matematico, codifica e generazione visiva, MaskGRPO offre aggiornamenti più stabili ed efficienti, portando a prestazioni di ragionamento più solide e a una migliore qualità di generazione. Questo studio stabilisce MaskGRPO come un approccio sistematico di ottimizzazione delle politiche e il primo metodo pratico per la diffusione visiva discretizzata.
English
Optimizing discrete diffusion model (DDM) with rewards remains a challenge: the non-autoregressive paradigm makes importance sampling intractable and rollout complex, puzzling reinforcement learning methods such as Group Relative Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first viable approach to enable scalable multimodal reinforcement learning in discrete diffusion with effective importance sampling and modality-specific adaptations. To this end, we first clarify the theoretical foundation for DDMs, which facilitates building an importance estimator that captures valuable token fluctuation for gradient updates. We then delicately tailored the rollout method for visual sequences, which yields diverse completions and reliable optimization gradients. Upon math reasoning, coding, and visual generation benchmarks, MaskGRPO brings more stable and efficient updates, leading to stronger reasoning performance and better generation quality. This study establishes MaskGRPO as a systematic policy optimization approach and the first practical way for discretized visual diffusion.
PDF22October 6, 2025