다중모드 이산 확산 모델을 위한 강화 학습 통합
Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models
October 3, 2025
저자: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye
cs.AI
초록
보상을 활용한 이산 확산 모델(DDM) 최적화는 여전히 도전적인 과제로 남아 있습니다:
비자기회귀적 패러다임은 중요도 샘플링을 다루기 어렵게 만들고 롤아웃을 복잡하게 하여,
Group Relative Policy Optimization(GRPO)와 같은 강화 학습 방법을 난해하게 만듭니다.
본 연구에서는 효과적인 중요도 샘플링과 모달리티별 적응을 통해 이산 확산에서 확장 가능한
다중모달 강화 학습을 가능하게 하는 첫 번째 실현 가능한 접근법인 MaskGRPO를 소개합니다.
이를 위해, 우리는 먼저 DDM의 이론적 기반을 명확히 하여, 그래디언트 업데이트에 유용한
토큰 변동을 포착하는 중요도 추정기를 구축할 수 있도록 했습니다. 그런 다음 시각적 시퀀스를
위한 롤아웃 방법을 세심하게 조정하여 다양한 완성과 신뢰할 수 있는 최적화 그래디언트를
얻었습니다. 수학적 추론, 코딩, 시각적 생성 벤치마크에서 MaskGRPO는 더 안정적이고
효율적인 업데이트를 제공하며, 이는 더 강력한 추론 성능과 더 나은 생성 품질로 이어졌습니다.
이 연구는 MaskGRPO를 체계적인 정책 최적화 접근법으로 확립하고, 이산화된 시각적 확산을
위한 첫 번째 실용적인 방법으로 자리매김했습니다.
English
Optimizing discrete diffusion model (DDM) with rewards remains a challenge:
the non-autoregressive paradigm makes importance sampling intractable and
rollout complex, puzzling reinforcement learning methods such as Group Relative
Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first
viable approach to enable scalable multimodal reinforcement learning in
discrete diffusion with effective importance sampling and modality-specific
adaptations. To this end, we first clarify the theoretical foundation for DDMs,
which facilitates building an importance estimator that captures valuable token
fluctuation for gradient updates. We then delicately tailored the rollout
method for visual sequences, which yields diverse completions and reliable
optimization gradients. Upon math reasoning, coding, and visual generation
benchmarks, MaskGRPO brings more stable and efficient updates, leading to
stronger reasoning performance and better generation quality. This study
establishes MaskGRPO as a systematic policy optimization approach and the first
practical way for discretized visual diffusion.