DiRL: un framework efficiente per il post-addestramento di modelli linguistici basati sulla diffusione

Abstract

I modelli linguistici diffusion (dLLM) sono emersi come promettenti alternative ai modelli auto-regressivi (AR). Sebbene recenti sforzi ne abbiano convalidato il potenziale nel pre-training e accelerato le velocità di inferenza, il panorama del post-training per i dLLM rimane sottosviluppato. I metodi esistenti soffrono di inefficienza computazionale e di una mancata corrispondenza tra gli obiettivi di addestramento e quelli di inferenza, limitando severamente le prestazioni in compiti di ragionamento complesso come la matematica. Per affrontare questo problema, introduciamo DiRL, un framework efficiente di post-training che integra strettamente l'addestramento a blocchi accelerato da FlexAttention con l'inferenza ottimizzata da LMDeploy. Questa architettura abilita un ciclo semplificato di aggiornamento online del modello, facilitando un efficiente post-training in due fasi (Supervised Fine-Tuning seguito da Reinforcement Learning). Basandoci su questo framework, proponiamo DiPO, la prima implementazione imparziale di Group Relative Policy Optimization (GRPO) specificamente progettata per i dLLM. Convalidiamo il nostro approccio addestrando DiRL-8B-Instruct su dati matematici di alta qualità. Il nostro modello raggiunge prestazioni matematiche all'avanguardia tra i dLLM e supera modelli comparabili della serie Qwen2.5 su diversi benchmark.

English

Diffusion Language Models (dLLMs) have emerged as promising alternatives to Auto-Regressive (AR) models. While recent efforts have validated their pre-training potential and accelerated inference speeds, the post-training landscape for dLLMs remains underdeveloped. Existing methods suffer from computational inefficiency and objective mismatches between training and inference, severely limiting performance on complex reasoning tasks such as mathematics. To address this, we introduce DiRL, an efficient post-training framework that tightly integrates FlexAttention-accelerated blockwise training with LMDeploy-optimized inference. This architecture enables a streamlined online model update loop, facilitating efficient two-stage post-training (Supervised Fine-Tuning followed by Reinforcement Learning). Building on this framework, we propose DiPO, the first unbiased Group Relative Policy Optimization (GRPO) implementation tailored for dLLMs. We validate our approach by training DiRL-8B-Instruct on high-quality math data. Our model achieves state-of-the-art math performance among dLLMs and surpasses comparable models in the Qwen2.5 series on several benchmarks.

DiRL: un framework efficiente per il post-addestramento di modelli linguistici basati sulla diffusione

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Abstract

Support