Inpainting-Gestuurde Policy Optimalisatie voor Diffusie Grote Taalmodellen
Inpainting-Guided Policy Optimization for Diffusion Large Language Models
September 12, 2025
Auteurs: Siyan Zhao, Mengchen Liu, Jing Huang, Miao Liu, Chenyu Wang, Bo Liu, Yuandong Tian, Guan Pang, Sean Bell, Aditya Grover, Feiyu Chen
cs.AI
Samenvatting
Gemaskte diffusie grote taalmodellen (dLLMs) komen naar voren als veelbelovende alternatieven voor autoregressieve LLMs, waarbij ze competitieve prestaties bieden en tegelijkertijd unieke generatiecapaciteiten ondersteunen, zoals inpainting. We onderzoeken hoe inpainting het ontwerp van RL-algoritmen voor dLLMs kan informeren. Het afstemmen van LLMs op reinforcement learning stuit op een uitdaging op het gebied van exploratie: schaarse beloningssignalen en verspilling van samples wanneer modellen er niet in slagen de juiste oplossingen te ontdekken. Hoewel deze inefficiëntie LLMs in het algemeen treft, bieden dLLMs een unieke kans—hun inpainting-vermogen kan de exploratie sturen. We introduceren IGPO (Inpainting Guided Policy Optimization), een RL-raamwerk dat strategisch gedeeltelijke grondwaarheid-redeneringstraceringen invoegt tijdens online sampling. In tegenstelling tot het aanbieden van volledige oplossingen, stuurt inpainting de exploratie naar veelbelovende trajectruimtes terwijl zelf gegenereerde redenering behouden blijft, waardoor een brug wordt geslagen tussen supervised fine-tuning en reinforcement learning. We passen IGPO toe op groep-gebaseerde optimalisatiemethoden zoals GRPO, waarbij exploratiefouten leiden tot nul voordelen en gradiënten. IGPO herstelt betekenisvolle gradiënten en verbetert tegelijkertijd de sample-efficiëntie. We stellen ook supervised fine-tuning voor op synthetisch herschreven beknopte traceringen die beter aansluiten bij de generatiepatronen van dLLMs. Met aanvullende technieken, waaronder entropie-gebaseerd filteren, levert ons trainingsrecept aanzienlijke verbeteringen op over drie wiskundige benchmarks—GSM8K, Math500 en AMC—waarbij nieuwe state-of-the-art resultaten worden behaald voor volledige aandacht gemaskte dLLMs.
English
Masked diffusion large language models (dLLMs) are emerging as promising
alternatives to autoregressive LLMs, offering competitive performance while
supporting unique generation capabilities such as inpainting. We explore how
inpainting can inform RL algorithm design for dLLMs. Aligning LLMs with
reinforcement learning faces an exploration challenge: sparse reward signals
and sample waste when models fail to discover correct solutions. While this
inefficiency affects LLMs broadly, dLLMs offer a distinctive opportunity--their
inpainting ability can guide exploration. We introduce IGPO (Inpainting Guided
Policy Optimization), an RL framework that strategically inserts partial
ground-truth reasoning traces during online sampling. Unlike providing full
solutions, inpainting steers exploration toward promising trajectory spaces
while preserving self-generated reasoning, bridging supervised fine-tuning and
reinforcement learning. We apply IGPO to group-based optimization methods such
as GRPO, where exploration failures cause zero advantages and gradients. IGPO
restores meaningful gradients while improving sample efficiency. We also
propose supervised fine-tuning on synthetically rewritten concise traces that
better align with dLLM generation patterns. With additional techniques
including entropy-based filtering, our training recipe yields substantial gains
across three mathematical benchmarks--GSM8K, Math500, and AMC--achieving new
state-of-the-art results for full-attention masked dLLMs.