ChatPaper.aiChatPaper

DiRL: Un marco eficiente de posentrenamiento para modelos de lenguaje de difusión

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

December 23, 2025
Autores: Ying Zhu, Jiaxin Wan, Xiaoran Liu, Siyanag He, Qiqi Wang, Xu Guo, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI

Resumen

Los Modelos de Lenguaje de Difusión (dLLMs) han surgido como alternativas prometedoras a los modelos auto-regresivos (AR). Si bien esfuerzos recientes han validado su potencial en el pre-entrenamiento y han acelerado las velocidades de inferencia, el panorama del post-entrenamiento para los dLLMs sigue estando poco desarrollado. Los métodos existentes adolecen de ineficiencia computacional y desalineación entre los objetivos de entrenamiento e inferencia, lo que limita severamente el rendimiento en tareas de razonamiento complejo como las matemáticas. Para abordar esto, presentamos DiRL, un marco de post-entrenamiento eficiente que integra estrechamente el entrenamiento por bloques acelerado por FlexAttention con la inferencia optimizada por LMDeploy. Esta arquitectura permite un ciclo de actualización del modelo en línea optimizado, facilitando un post-entrenamiento eficiente en dos etapas (Ajuste Fino Supervisado seguido de Aprendizaje por Refuerzo). Sobre esta base, proponemos DiPO, la primera implementación imparcial de Optimización de Políticas Relativas Grupales (GRPO) diseñada para dLLMs. Validamos nuestro enfoque entrenando DiRL-8B-Instruct con datos matemáticos de alta calidad. Nuestro modelo logra un rendimiento matemático de vanguardia entre los dLLMs y supera a modelos comparables de la serie Qwen2.5 en varios benchmarks.
English
Diffusion Language Models (dLLMs) have emerged as promising alternatives to Auto-Regressive (AR) models. While recent efforts have validated their pre-training potential and accelerated inference speeds, the post-training landscape for dLLMs remains underdeveloped. Existing methods suffer from computational inefficiency and objective mismatches between training and inference, severely limiting performance on complex reasoning tasks such as mathematics. To address this, we introduce DiRL, an efficient post-training framework that tightly integrates FlexAttention-accelerated blockwise training with LMDeploy-optimized inference. This architecture enables a streamlined online model update loop, facilitating efficient two-stage post-training (Supervised Fine-Tuning followed by Reinforcement Learning). Building on this framework, we propose DiPO, the first unbiased Group Relative Policy Optimization (GRPO) implementation tailored for dLLMs. We validate our approach by training DiRL-8B-Instruct on high-quality math data. Our model achieves state-of-the-art math performance among dLLMs and surpasses comparable models in the Qwen2.5 series on several benchmarks.
PDF161December 31, 2025