Inpainting-gesteuerte Policy-Optimierung für Diffusion Large Language Models
Inpainting-Guided Policy Optimization for Diffusion Large Language Models
September 12, 2025
papers.authors: Siyan Zhao, Mengchen Liu, Jing Huang, Miao Liu, Chenyu Wang, Bo Liu, Yuandong Tian, Guan Pang, Sean Bell, Aditya Grover, Feiyu Chen
cs.AI
papers.abstract
Masked Diffusion Large Language Models (dLLMs) erweisen sich als vielversprechende Alternativen zu autoregressiven LLMs, da sie eine wettbewerbsfähige Leistung bieten und gleichzeitig einzigartige Generierungsfähigkeiten wie Inpainting unterstützen. Wir untersuchen, wie Inpainting das Design von RL-Algorithmen für dLLMs beeinflussen kann. Die Ausrichtung von LLMs an Reinforcement Learning steht vor einer Explorationsherausforderung: spärliche Belohnungssignale und verschwendete Proben, wenn Modelle keine korrekten Lösungen finden. Während diese Ineffizienz LLMs allgemein betrifft, bieten dLLMs eine besondere Gelegenheit – ihre Inpainting-Fähigkeit kann die Exploration leiten. Wir stellen IGPO (Inpainting Guided Policy Optimization) vor, ein RL-Framework, das strategisch partielle Ground-Truth-Reasoning-Traces während des Online-Samplings einfügt. Im Gegensatz zur Bereitstellung vollständiger Lösungen lenkt Inpainting die Exploration in vielversprechende Trajektorienräume, während selbstgeneriertes Reasoning erhalten bleibt, wodurch eine Brücke zwischen überwachtem Fine-Tuning und Reinforcement Learning geschlagen wird. Wir wenden IGPO auf gruppenbasierte Optimierungsmethoden wie GRPO an, bei denen Explorationsfehler zu Null-Vorteilen und Gradienten führen. IGPO stellt sinnvolle Gradienten wieder her und verbessert gleichzeitig die Probeneffizienz. Wir schlagen auch ein überwachtes Fine-Tuning auf synthetisch umgeschriebenen, prägnanten Traces vor, die besser mit den Generierungsmustern von dLLMs übereinstimmen. Mit zusätzlichen Techniken, einschließlich entropiebasierter Filterung, erzielt unser Trainingsrezept erhebliche Gewinne über drei mathematische Benchmarks – GSM8K, Math500 und AMC – und erreicht neue State-of-the-Art-Ergebnisse für Full-Attention-Masked-dLLMs.
English
Masked diffusion large language models (dLLMs) are emerging as promising
alternatives to autoregressive LLMs, offering competitive performance while
supporting unique generation capabilities such as inpainting. We explore how
inpainting can inform RL algorithm design for dLLMs. Aligning LLMs with
reinforcement learning faces an exploration challenge: sparse reward signals
and sample waste when models fail to discover correct solutions. While this
inefficiency affects LLMs broadly, dLLMs offer a distinctive opportunity--their
inpainting ability can guide exploration. We introduce IGPO (Inpainting Guided
Policy Optimization), an RL framework that strategically inserts partial
ground-truth reasoning traces during online sampling. Unlike providing full
solutions, inpainting steers exploration toward promising trajectory spaces
while preserving self-generated reasoning, bridging supervised fine-tuning and
reinforcement learning. We apply IGPO to group-based optimization methods such
as GRPO, where exploration failures cause zero advantages and gradients. IGPO
restores meaningful gradients while improving sample efficiency. We also
propose supervised fine-tuning on synthetically rewritten concise traces that
better align with dLLM generation patterns. With additional techniques
including entropy-based filtering, our training recipe yields substantial gains
across three mathematical benchmarks--GSM8K, Math500, and AMC--achieving new
state-of-the-art results for full-attention masked dLLMs.