Consolidación del Aprendizaje por Refuerzo para Modelos de Difusión Discreta Multimodal
Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models
October 3, 2025
Autores: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye
cs.AI
Resumen
Optimizar el modelo de difusión discreta (DDM) con recompensas sigue siendo un desafío: el paradigma no autoregresivo hace que el muestreo por importancia sea intratable y el despliegue sea complejo, desconcertando métodos de aprendizaje por refuerzo como la Optimización de Política Relativa de Grupo (GRPO). En este estudio, introducimos MaskGRPO, el primer enfoque viable para habilitar el aprendizaje por refuerzo multimodal escalable en difusión discreta con un muestreo por importancia efectivo y adaptaciones específicas por modalidad. Para ello, primero aclaramos los fundamentos teóricos de los DDMs, lo que facilita la construcción de un estimador de importancia que captura fluctuaciones valiosas de tokens para actualizaciones de gradiente. Luego, adaptamos meticulosamente el método de despliegue para secuencias visuales, lo que produce finalizaciones diversas y gradientes de optimización confiables. En pruebas de razonamiento matemático, codificación y generación visual, MaskGRPO ofrece actualizaciones más estables y eficientes, lo que conduce a un mejor rendimiento de razonamiento y una mayor calidad de generación. Este estudio establece a MaskGRPO como un enfoque sistemático de optimización de políticas y la primera forma práctica para la difusión visual discretizada.
English
Optimizing discrete diffusion model (DDM) with rewards remains a challenge:
the non-autoregressive paradigm makes importance sampling intractable and
rollout complex, puzzling reinforcement learning methods such as Group Relative
Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first
viable approach to enable scalable multimodal reinforcement learning in
discrete diffusion with effective importance sampling and modality-specific
adaptations. To this end, we first clarify the theoretical foundation for DDMs,
which facilitates building an importance estimator that captures valuable token
fluctuation for gradient updates. We then delicately tailored the rollout
method for visual sequences, which yields diverse completions and reliable
optimization gradients. Upon math reasoning, coding, and visual generation
benchmarks, MaskGRPO brings more stable and efficient updates, leading to
stronger reasoning performance and better generation quality. This study
establishes MaskGRPO as a systematic policy optimization approach and the first
practical way for discretized visual diffusion.