ChatPaper.aiChatPaper

DiRL: Эффективный фреймворк пост-обучения для диффузионных языковых моделей

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

December 23, 2025
Авторы: Ying Zhu, Jiaxin Wan, Xiaoran Liu, Siyanag He, Qiqi Wang, Xu Guo, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu
cs.AI

Аннотация

Диффузионные языковые модели (dLLM) стали перспективной альтернативой авторегрессионным (AR) моделям. Хотя недавние исследования подтвердили их потенциал предварительного обучения и ускорили вывод, область пост-обучения для dLLM остается недостаточно развитой. Существующие методы страдают от вычислительной неэффективности и несоответствия целей между обучением и выводом, что серьезно ограничивает производительность на сложных задачах логического рассуждения, таких как математика. Для решения этой проблемы мы представляем DiRL — эффективную структуру пост-обучения, которая тесно интегрирует блочное обучение с ускорением через FlexAttention с оптимизированным выводом от LMDeploy. Эта архитектура обеспечивает оптимизированный цикл онлайн-обновления модели, способствуя эффективному двухэтапному пост-обучению (контролируемое тонкое настройка с последующим обучением с подкреплением). На основе этой структуры мы предлагаем DiPO — первую несмещенную реализацию оптимизации групповой относительной политики (GRPO), адаптированную для dLLM. Мы проверяем наш подход, обучив модель DiRL-8B-Instruct на высококачественных математических данных. Наша модель демонстрирует наилучшие математические результаты среди dLLM и превосходит сопоставимые модели серии Qwen2.5 по нескольким тестовым наборам.
English
Diffusion Language Models (dLLMs) have emerged as promising alternatives to Auto-Regressive (AR) models. While recent efforts have validated their pre-training potential and accelerated inference speeds, the post-training landscape for dLLMs remains underdeveloped. Existing methods suffer from computational inefficiency and objective mismatches between training and inference, severely limiting performance on complex reasoning tasks such as mathematics. To address this, we introduce DiRL, an efficient post-training framework that tightly integrates FlexAttention-accelerated blockwise training with LMDeploy-optimized inference. This architecture enables a streamlined online model update loop, facilitating efficient two-stage post-training (Supervised Fine-Tuning followed by Reinforcement Learning). Building on this framework, we propose DiPO, the first unbiased Group Relative Policy Optimization (GRPO) implementation tailored for dLLMs. We validate our approach by training DiRL-8B-Instruct on high-quality math data. Our model achieves state-of-the-art math performance among dLLMs and surpasses comparable models in the Qwen2.5 series on several benchmarks.
PDF161December 31, 2025