ChatPaper.aiChatPaper

Konsolidierung von Reinforcement Learning für multimodale diskrete Diffusionsmodelle

Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models

October 3, 2025
papers.authors: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye
cs.AI

papers.abstract

Die Optimierung diskreter Diffusionsmodelle (DDM) mit Belohnungen bleibt eine Herausforderung: Das nicht-autoregressive Paradigma macht Importance Sampling undurchführbar und Rollouts komplex, was verstärkende Lernmethoden wie Group Relative Policy Optimization (GRPO) vor Rätsel stellt. In dieser Studie führen wir MaskGRPO ein, den ersten praktikablen Ansatz, der skalierbares multimodales verstärkendes Lernen in diskreter Diffusion mit effektivem Importance Sampling und modalitätsspezifischen Anpassungen ermöglicht. Zu diesem Zweck klären wir zunächst die theoretische Grundlage für DDMs, was den Aufbau eines Importance-Schätzers erleichtert, der wertvolle Token-Schwankungen für Gradientenupdates erfasst. Anschließend haben wir die Rollout-Methode für visuelle Sequenzen sorgfältig angepasst, was vielfältige Vervollständigungen und zuverlässige Optimierungsgradienten liefert. Auf Grundlage von mathematischen Beweisführungen, Codierungs- und visuellen Generierungsbenchmarks ermöglicht MaskGRPO stabilere und effizientere Updates, was zu einer stärkeren Leistung in der Beweisführung und einer besseren Generierungsqualität führt. Diese Studie etabliert MaskGRPO als einen systematischen Policy-Optimierungsansatz und den ersten praktischen Weg für diskretisierte visuelle Diffusion.
English
Optimizing discrete diffusion model (DDM) with rewards remains a challenge: the non-autoregressive paradigm makes importance sampling intractable and rollout complex, puzzling reinforcement learning methods such as Group Relative Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first viable approach to enable scalable multimodal reinforcement learning in discrete diffusion with effective importance sampling and modality-specific adaptations. To this end, we first clarify the theoretical foundation for DDMs, which facilitates building an importance estimator that captures valuable token fluctuation for gradient updates. We then delicately tailored the rollout method for visual sequences, which yields diverse completions and reliable optimization gradients. Upon math reasoning, coding, and visual generation benchmarks, MaskGRPO brings more stable and efficient updates, leading to stronger reasoning performance and better generation quality. This study establishes MaskGRPO as a systematic policy optimization approach and the first practical way for discretized visual diffusion.
PDF22October 6, 2025