Aprendendo com o Futuro Próprio: Autodestilação On-policy para dLLMs

Resumo

A auto-destilação on-policy (OPSD) tem se mostrado eficaz no pós-treinamento de grandes modelos de linguagem (LLMs), porém sua aplicação a LLMs de difusão (dLLMs) permanece inexplorada. Os métodos OPSD existentes são inerentemente centrados em autoregressão. Eles injetam informações privilegiadas por meio de condicionamento de prefixo da esquerda para a direita com supervisão de divergência no nível de token, um design que conflita fundamentalmente com a geração de ordem arbitrária dos dLLMs. Apresentamos o d-OPSD, o primeiro framework OPSD adaptado para dLLMs. Nossa abordagem oferece duas contribuições centrais. Primeiro, reformulamos a construção do auto-professor utilizando respostas geradas pelo próprio modelo como condicionamento de sufixo, permitindo que o modelo aluno aprenda a partir de "auto-experiência futura" em vez de prefixos privilegiados. Segundo, deslocamos a supervisão do nível de token para o nível de etapa, alinhando o treinamento ao processo iterativo de remoção de ruído dos dLLMs. Experimentos em quatro benchmarks de raciocínio mostram que o d-OPSD supera consistentemente as linhas de base RLVR e SFT com eficiência amostral superior, exigindo apenas cerca de 10% das etapas de otimização do RLVR, abrindo um caminho promissor para o pós-treinamento de dLLMs. O código está disponível em https://github.com/xingzhejun/d-OPSD.

English

On-policy self-distillation (OPSD) has proven effective for post-training large language models (LLMs), yet its application to diffusion LLMs (dLLMs) remains unexplored. Existing OPSD methods are inherently autoregressive-centric. They inject privileged information via left-to-right prefix conditioning with token-level divergence supervision, a design that fundamentally conflicts with the arbitraryorder generation of dLLMs. We introduce d-OPSD, the first OPSD framework tailored for dLLMs. Our approach makes two core contributions. First, we reframe self-teacher construction by using self-generated answers as suffix conditioning, enabling the student model to learn from "self future-experience" rather than privileged prefixes. Second, we shift supervision from token-level to step-level, aligning training with the iterative denoising process of dLLMs. Experiments across four reasoning benchmarks show that d-OPSD consistently outperforms RLVR and SFT baselines with superior sample efficiency, requiring only around 10% of the optimization steps by RLVR and opening a promising pathway for dLLM posttraining. The code is available at https://github.com/xingzhejun/d-OPSD.