Обучение от собственного будущего: самодистилляция на основе политики для dLLMs

Аннотация

Самодистилляция на политике (OPSD) доказала свою эффективность для пост-тренировки больших языковых моделей (LLM), однако её применение к диффузионным языковым моделям (dLLM) остаётся неизученным. Существующие методы OPSD по своей сути ориентированы на авторегрессию: они внедряют привилегированную информацию через обусловливание префиксом слева направо с контролем на уровне токенов по дивергенции — подход, который принципиально противоречит генерации в произвольном порядке, свойственной dLLM. Мы представляем d-OPSD — первую структуру OPSD, адаптированную для dLLM. Наш подход вносит два ключевых вклада. Во-первых, мы переосмысливаем конструирование самоучителя, используя самостоятельно сгенерированные ответы в качестве обусловливания суффиксом, что позволяет модели-ученику учиться на «само-будущем опыте», а не на привилегированных префиксах. Во-вторых, мы переводим контроль с уровня токенов на уровень шагов, согласовывая обучение с итеративным процессом шумоподавления dLLM. Эксперименты на четырёх бенчмарках рассуждений показывают, что d-OPSD стабильно превосходит базовые методы RLVR и SFT, обладая превосходной эффективностью использования выборки: требуется лишь около 10% шагов оптимизации от RLVR, что открывает многообещающий путь для пост-тренировки dLLM. Код доступен по адресу https://github.com/xingzhejun/d-OPSD.

English

On-policy self-distillation (OPSD) has proven effective for post-training large language models (LLMs), yet its application to diffusion LLMs (dLLMs) remains unexplored. Existing OPSD methods are inherently autoregressive-centric. They inject privileged information via left-to-right prefix conditioning with token-level divergence supervision, a design that fundamentally conflicts with the arbitraryorder generation of dLLMs. We introduce d-OPSD, the first OPSD framework tailored for dLLMs. Our approach makes two core contributions. First, we reframe self-teacher construction by using self-generated answers as suffix conditioning, enabling the student model to learn from "self future-experience" rather than privileged prefixes. Second, we shift supervision from token-level to step-level, aligning training with the iterative denoising process of dLLMs. Experiments across four reasoning benchmarks show that d-OPSD consistently outperforms RLVR and SFT baselines with superior sample efficiency, requiring only around 10% of the optimization steps by RLVR and opening a promising pathway for dLLM posttraining. The code is available at https://github.com/xingzhejun/d-OPSD.