DiRL: Ein effizientes Framework zur Nachbearbeitung von Diffusionssprachmodellen
DiRL: An Efficient Post-Training Framework for Diffusion Language Models
December 23, 2025
papers.authors: Ying Zhu, Jiaxin Wan, Xiaoran Liu, Siyanag He, Qiqi Wang, Xu Guo, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI
papers.abstract
Diffusions-Sprachmodelle (dLLMs) haben sich als vielversprechende Alternativen zu autoregressiven (AR) Modellen etabliert. Während jüngste Bemühungen ihr Pre-Training-Potenzial validiert und die Inferenzgeschwindigkeiten beschleunigt haben, ist die Post-Training-Landschaft für dLLMs nach wie vor unterentwickelt. Bestehende Methoden leiden unter rechnerischer Ineffizienz und Zielkonflikten zwischen Training und Inferenz, was die Leistung bei komplexen Reasoning-Aufgaben wie Mathematik erheblich einschränkt. Um dies zu adressieren, führen wir DiRL ein, ein effizientes Post-Training-Framework, das FlexAttention-beschleunigtes blockweises Training eng mit LMDeploy-optimierter Inferenz integriert. Diese Architektur ermöglicht eine optimierte Online-Modellaktualisierungsschleife und erleichtert ein effizientes zweistufiges Post-Training (Supervised Fine-Tuning gefolgt von Reinforcement Learning). Aufbauend auf diesem Framework schlagen wir DiPO vor, die erste unverzerrte Implementierung von Group Relative Policy Optimization (GRPO), die speziell für dLLMs zugeschnitten ist. Wir validieren unseren Ansatz durch das Training von DiRL-8B-Instruct mit hochwertigen Mathe-Daten. Unser Modell erzielt state-of-the-art Mathe-Leistungen unter dLLMs und übertrifft vergleichbare Modelle der Qwen2.5-Serie in mehreren Benchmarks.
English
Diffusion Language Models (dLLMs) have emerged as promising alternatives to Auto-Regressive (AR) models. While recent efforts have validated their pre-training potential and accelerated inference speeds, the post-training landscape for dLLMs remains underdeveloped. Existing methods suffer from computational inefficiency and objective mismatches between training and inference, severely limiting performance on complex reasoning tasks such as mathematics. To address this, we introduce DiRL, an efficient post-training framework that tightly integrates FlexAttention-accelerated blockwise training with LMDeploy-optimized inference. This architecture enables a streamlined online model update loop, facilitating efficient two-stage post-training (Supervised Fine-Tuning followed by Reinforcement Learning). Building on this framework, we propose DiPO, the first unbiased Group Relative Policy Optimization (GRPO) implementation tailored for dLLMs. We validate our approach by training DiRL-8B-Instruct on high-quality math data. Our model achieves state-of-the-art math performance among dLLMs and surpasses comparable models in the Qwen2.5 series on several benchmarks.