ChatPaper.aiChatPaper

DiRL: Een efficiënt raamwerk voor nafundering van diffusietaalmodelen

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

December 23, 2025
Auteurs: Ying Zhu, Jiaxin Wan, Xiaoran Liu, Siyanag He, Qiqi Wang, Xu Guo, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI

Samenvatting

Diffusie-taalmodellen (dLLM's) zijn naar voren gekomen als veelbelovende alternatieven voor autoregressieve (AR) modellen. Hoewel recente inspanningen hun pre-trainingspotentieel hebben gevalideerd en de inferentiesnelheden hebben versneld, blijft het post-trainingslandschap voor dLLM's onderontwikkeld. Bestaande methoden lijden onder computationele inefficiëntie en een mismatch tussen de doelen tijdens training en inferentie, wat de prestaties bij complexe redeneertaken zoals wiskunde ernstig beperkt. Om dit aan te pakken, introduceren we DiRL, een efficiënt post-trainingsraamwerk dat FlexAttention-versnelde bloksgewijze training strak integreert met LMDeploy-geoptimaliseerde inferentie. Deze architectuur maakt een gestroomlijnde online modelupdate-loop mogelijk, wat efficiënte post-training in twee fasen vergemakkelijkt (Supervised Fine-Tuning gevolgd door Reinforcement Learning). Voortbouwend op dit raamwerk stellen we DiPO voor, de eerste zuivere implementatie van Group Relative Policy Optimization (GRPO) die is toegesneden op dLLM's. We valideren onze aanpak door DiRL-8B-Instruct te trainen op hoogwaardige wiskundige data. Ons model behaalt state-of-the-art wiskundeprestaties onder dLLM's en overtreft vergelijkbare modellen in de Qwen2.5-serie op verschillende benchmarks.
English
Diffusion Language Models (dLLMs) have emerged as promising alternatives to Auto-Regressive (AR) models. While recent efforts have validated their pre-training potential and accelerated inference speeds, the post-training landscape for dLLMs remains underdeveloped. Existing methods suffer from computational inefficiency and objective mismatches between training and inference, severely limiting performance on complex reasoning tasks such as mathematics. To address this, we introduce DiRL, an efficient post-training framework that tightly integrates FlexAttention-accelerated blockwise training with LMDeploy-optimized inference. This architecture enables a streamlined online model update loop, facilitating efficient two-stage post-training (Supervised Fine-Tuning followed by Reinforcement Learning). Building on this framework, we propose DiPO, the first unbiased Group Relative Policy Optimization (GRPO) implementation tailored for dLLMs. We validate our approach by training DiRL-8B-Instruct on high-quality math data. Our model achieves state-of-the-art math performance among dLLMs and surpasses comparable models in the Qwen2.5 series on several benchmarks.
PDF161December 31, 2025