Aprendiendo del futuro propio: Autodestilación on-policy para dLLMs

Resumen

La autodestilación on-policy (OPSD) ha demostrado ser efectiva para el posentrenamiento de modelos de lenguaje grandes (LLM), pero su aplicación a modelos de lenguaje de difusión (dLLM) sigue sin explorarse. Los métodos OPSD existentes son inherentemente autorregresivos: inyectan información privilegiada mediante condicionamiento de prefijos de izquierda a derecha con supervisión de divergencia a nivel de token, un diseño que entra en conflicto fundamental con la generación de orden arbitrario de los dLLM. Presentamos d-OPSD, el primer marco OPSD adaptado para dLLM. Nuestro enfoque realiza dos contribuciones principales. Primero, reformulamos la construcción del automaestro utilizando respuestas autogeneradas como condicionamiento de sufijos, lo que permite que el modelo estudiante aprenda de la "autoexperiencia futura" en lugar de prefijos privilegiados. Segundo, trasladamos la supervisión del nivel de token al nivel de paso, alineando el entrenamiento con el proceso iterativo de eliminación de ruido de los dLLM. Los experimentos en cuatro puntos de referencia de razonamiento muestran que d-OPSD supera consistentemente a las líneas base de RLVR y SFT con una eficiencia de muestra superior, requiriendo solo alrededor del 10% de los pasos de optimización de RLVR y abriendo una vía prometedora para el posentrenamiento de dLLM. El código está disponible en https://github.com/xingzhejun/d-OPSD.

English

On-policy self-distillation (OPSD) has proven effective for post-training large language models (LLMs), yet its application to diffusion LLMs (dLLMs) remains unexplored. Existing OPSD methods are inherently autoregressive-centric. They inject privileged information via left-to-right prefix conditioning with token-level divergence supervision, a design that fundamentally conflicts with the arbitraryorder generation of dLLMs. We introduce d-OPSD, the first OPSD framework tailored for dLLMs. Our approach makes two core contributions. First, we reframe self-teacher construction by using self-generated answers as suffix conditioning, enabling the student model to learn from "self future-experience" rather than privileged prefixes. Second, we shift supervision from token-level to step-level, aligning training with the iterative denoising process of dLLMs. Experiments across four reasoning benchmarks show that d-OPSD consistently outperforms RLVR and SFT baselines with superior sample efficiency, requiring only around 10% of the optimization steps by RLVR and opening a promising pathway for dLLM posttraining. The code is available at https://github.com/xingzhejun/d-OPSD.