Optimisation des politiques guidée par l'inpainting pour les modèles de langage massifs basés sur la diffusion
Inpainting-Guided Policy Optimization for Diffusion Large Language Models
September 12, 2025
papers.authors: Siyan Zhao, Mengchen Liu, Jing Huang, Miao Liu, Chenyu Wang, Bo Liu, Yuandong Tian, Guan Pang, Sean Bell, Aditya Grover, Feiyu Chen
cs.AI
papers.abstract
Les grands modèles de langage à diffusion masquée (dLLMs) émergent comme des alternatives prometteuses aux LLMs autorégressifs, offrant des performances compétitives tout en supportant des capacités de génération uniques telles que l'inpainting. Nous explorons comment l'inpainting peut éclairer la conception d'algorithmes de RL pour les dLLMs. L'alignement des LLMs avec l'apprentissage par renforcement se heurte à un défi d'exploration : des signaux de récompense clairsemés et un gaspillage d'échantillons lorsque les modèles ne parviennent pas à découvrir des solutions correctes. Bien que cette inefficacité affecte les LLMs de manière générale, les dLLMs offrent une opportunité distinctive—leur capacité d'inpainting peut guider l'exploration. Nous introduisons IGPO (Inpainting Guided Policy Optimization), un cadre de RL qui insère stratégiquement des traces de raisonnement partiellement véridiques pendant l'échantillonnage en ligne. Contrairement à fournir des solutions complètes, l'inpainting oriente l'exploration vers des espaces de trajectoires prometteurs tout en préservant le raisonnement auto-généré, faisant le pont entre le fine-tuning supervisé et l'apprentissage par renforcement. Nous appliquons IGPO à des méthodes d'optimisation basées sur des groupes comme GRPO, où les échecs d'exploration entraînent des avantages et des gradients nuls. IGPO restaure des gradients significatifs tout en améliorant l'efficacité des échantillons. Nous proposons également un fine-tuning supervisé sur des traces concises réécrites synthétiquement qui s'alignent mieux avec les modèles de génération des dLLMs. Avec des techniques supplémentaires incluant le filtrage basé sur l'entropie, notre recette d'entraînement apporte des gains substantiels sur trois benchmarks mathématiques—GSM8K, Math500 et AMC—établissant de nouveaux résultats de pointe pour les dLLMs masqués à attention complète.
English
Masked diffusion large language models (dLLMs) are emerging as promising
alternatives to autoregressive LLMs, offering competitive performance while
supporting unique generation capabilities such as inpainting. We explore how
inpainting can inform RL algorithm design for dLLMs. Aligning LLMs with
reinforcement learning faces an exploration challenge: sparse reward signals
and sample waste when models fail to discover correct solutions. While this
inefficiency affects LLMs broadly, dLLMs offer a distinctive opportunity--their
inpainting ability can guide exploration. We introduce IGPO (Inpainting Guided
Policy Optimization), an RL framework that strategically inserts partial
ground-truth reasoning traces during online sampling. Unlike providing full
solutions, inpainting steers exploration toward promising trajectory spaces
while preserving self-generated reasoning, bridging supervised fine-tuning and
reinforcement learning. We apply IGPO to group-based optimization methods such
as GRPO, where exploration failures cause zero advantages and gradients. IGPO
restores meaningful gradients while improving sample efficiency. We also
propose supervised fine-tuning on synthetically rewritten concise traces that
better align with dLLM generation patterns. With additional techniques
including entropy-based filtering, our training recipe yields substantial gains
across three mathematical benchmarks--GSM8K, Math500, and AMC--achieving new
state-of-the-art results for full-attention masked dLLMs.