DiRL: Uma Estrutura Eficiente de Pós-Treinamento para Modelos de Linguagem de Difusão

Resumo

Os Modelos de Linguagem de Difusão (dLLMs) emergiram como alternativas promissoras aos modelos auto-regressivos (AR). Embora esforços recentes tenham validado seu potencial de pré-treinamento e acelerado as velocidades de inferência, o cenário de pós-treinamento para dLLMs permanece subdesenvolvido. Os métodos existentes sofrem com ineficiência computacional e desalinhamentos de objetivos entre treinamento e inferência, limitando severamente o desempenho em tarefas complexas de raciocínio, como matemática. Para resolver isso, introduzimos o DiRL, uma estrutura eficiente de pós-treinamento que integra firmemente o treinamento em bloco acelerado por FlexAttention com a inferência otimizada pelo LMDeploy. Esta arquitetura permite um ciclo simplificado de atualização online do modelo, facilitando um pós-treinamento eficiente em dois estágios (Ajuste Fino Supervisionado seguido por Aprendizado por Reforço). Com base nesta estrutura, propomos o DiPO, a primeira implementação imparcial de Otimização de Política Relativa de Grupo (GRPO) adaptada para dLLMs. Validamos nossa abordagem treinando o DiRL-8B-Instruct com dados matemáticos de alta qualidade. Nosso modelo atinge um desempenho matemático state-of-the-art entre os dLLMs e supera modelos comparáveis da série Qwen2.5 em vários benchmarks.

English

Diffusion Language Models (dLLMs) have emerged as promising alternatives to Auto-Regressive (AR) models. While recent efforts have validated their pre-training potential and accelerated inference speeds, the post-training landscape for dLLMs remains underdeveloped. Existing methods suffer from computational inefficiency and objective mismatches between training and inference, severely limiting performance on complex reasoning tasks such as mathematics. To address this, we introduce DiRL, an efficient post-training framework that tightly integrates FlexAttention-accelerated blockwise training with LMDeploy-optimized inference. This architecture enables a streamlined online model update loop, facilitating efficient two-stage post-training (Supervised Fine-Tuning followed by Reinforcement Learning). Building on this framework, we propose DiPO, the first unbiased Group Relative Policy Optimization (GRPO) implementation tailored for dLLMs. We validate our approach by training DiRL-8B-Instruct on high-quality math data. Our model achieves state-of-the-art math performance among dLLMs and surpasses comparable models in the Qwen2.5 series on several benchmarks.

DiRL: Uma Estrutura Eficiente de Pós-Treinamento para Modelos de Linguagem de Difusão

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Resumo

Support