ChatPaper.aiChatPaper

DiRL : Un cadre efficace d'affinage post-entraînement pour les modèles de langage par diffusion

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

December 23, 2025
papers.authors: Ying Zhu, Jiaxin Wan, Xiaoran Liu, Siyanag He, Qiqi Wang, Xu Guo, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI

papers.abstract

Les modèles de langage par diffusion (dLLMs) émergent comme des alternatives prometteuses aux modèles auto-régressifs (AR). Si des travaux récents ont validé leur potentiel en pré-entraînement et accéléré leurs vitesses d'inférence, le paysage du post-entraînement pour les dLLMs reste sous-développé. Les méthodes existantes souffrent d'inefficacité computationnelle et de décalages d'objectifs entre l'entraînement et l'inférence, limitant gravement les performances sur des tâches de raisonnement complexes comme les mathématiques. Pour y remédier, nous présentons DiRL, un cadre de post-entraînement efficace qui intègre étroitement un entraînement par blocs accéléré par FlexAttention avec une inférence optimisée par LMDeploy. Cette architecture permet une boucle de mise à jour du modèle en ligne rationalisée, facilitant un post-entraînement efficace en deux étapes (Fine-Tuning Supervisé suivi d'un Apprentissage par Renforcement). Sur la base de ce cadre, nous proposons DiPO, la première implémentation non biaisée de l'Optimisation de Politique Relative par Groupe (GRPO) conçue pour les dLLMs. Nous validons notre approche en entraînant DiRL-8B-Instruct sur des données mathématiques de haute qualité. Notre modèle atteint des performances mathématiques de pointe parmi les dLLMs et surpasse des modèles comparables de la série Qwen2.5 sur plusieurs benchmarks.
English
Diffusion Language Models (dLLMs) have emerged as promising alternatives to Auto-Regressive (AR) models. While recent efforts have validated their pre-training potential and accelerated inference speeds, the post-training landscape for dLLMs remains underdeveloped. Existing methods suffer from computational inefficiency and objective mismatches between training and inference, severely limiting performance on complex reasoning tasks such as mathematics. To address this, we introduce DiRL, an efficient post-training framework that tightly integrates FlexAttention-accelerated blockwise training with LMDeploy-optimized inference. This architecture enables a streamlined online model update loop, facilitating efficient two-stage post-training (Supervised Fine-Tuning followed by Reinforcement Learning). Building on this framework, we propose DiPO, the first unbiased Group Relative Policy Optimization (GRPO) implementation tailored for dLLMs. We validate our approach by training DiRL-8B-Instruct on high-quality math data. Our model achieves state-of-the-art math performance among dLLMs and surpasses comparable models in the Qwen2.5 series on several benchmarks.
PDF161December 31, 2025