ChatPaper.aiChatPaper

Consolidação do Aprendizado por Reforço para Modelos de Difusão Discreta Multimodal

Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models

October 3, 2025
Autores: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye
cs.AI

Resumo

A otimização de modelos de difusão discreta (DDM) com recompensas continua sendo um desafio: o paradigma não autorregressivo torna a amostragem por importância intratável e o rollout complexo, confundindo métodos de aprendizado por reforço, como o Group Relative Policy Optimization (GRPO). Neste estudo, introduzimos o MaskGRPO, a primeira abordagem viável para permitir o aprendizado por reforço multimodal escalável em difusão discreta com amostragem por importância eficaz e adaptações específicas por modalidade. Para isso, primeiro esclarecemos a base teórica para DDMs, o que facilita a construção de um estimador de importância que captura flutuações valiosas de tokens para atualizações de gradiente. Em seguida, ajustamos cuidadosamente o método de rollout para sequências visuais, o que gera completamentos diversos e gradientes de otimização confiáveis. Em benchmarks de raciocínio matemático, codificação e geração visual, o MaskGRPO traz atualizações mais estáveis e eficientes, resultando em um desempenho de raciocínio mais forte e uma qualidade de geração superior. Este estudo estabelece o MaskGRPO como uma abordagem sistemática de otimização de políticas e a primeira maneira prática para difusão visual discretizada.
English
Optimizing discrete diffusion model (DDM) with rewards remains a challenge: the non-autoregressive paradigm makes importance sampling intractable and rollout complex, puzzling reinforcement learning methods such as Group Relative Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first viable approach to enable scalable multimodal reinforcement learning in discrete diffusion with effective importance sampling and modality-specific adaptations. To this end, we first clarify the theoretical foundation for DDMs, which facilitates building an importance estimator that captures valuable token fluctuation for gradient updates. We then delicately tailored the rollout method for visual sequences, which yields diverse completions and reliable optimization gradients. Upon math reasoning, coding, and visual generation benchmarks, MaskGRPO brings more stable and efficient updates, leading to stronger reasoning performance and better generation quality. This study establishes MaskGRPO as a systematic policy optimization approach and the first practical way for discretized visual diffusion.
PDF22October 6, 2025