Apprendre du soi-futur : Auto-distillation sur politique pour les dLLMs

Résumé

L'auto-distillation sur politique (OPSD) s'est avérée efficace pour le post-entraînement des grands modèles de langage (LLMs), mais son application aux LLMs à diffusion (dLLMs) reste inexplorée. Les méthodes OPSD existantes sont intrinsèquement centrées sur l'autorégressif. Elles injectent des informations privilégiées via un conditionnement par préfixe de gauche à droite avec une supervision de divergence au niveau des tokens, une conception qui entre fondamentalement en conflit avec la génération d'ordre arbitraire des dLLMs. Nous introduisons d-OPSD, le premier cadre OPSD adapté aux dLLMs. Notre approche apporte deux contributions essentielles. Premièrement, nous reformulons la construction de l'enseignant interne en utilisant les réponses auto-générées comme conditionnement par suffixe, permettant au modèle étudiant d'apprendre à partir de sa « propre expérience future » plutôt que de préfixes privilégiés. Deuxièmement, nous faisons passer la supervision du niveau des tokens au niveau des étapes, alignant ainsi l'entraînement sur le processus de débruitage itératif des dLLMs. Des expériences sur quatre benchmarks de raisonnement montrent que d-OPSD surpasse systématiquement les bases RLVR et SFT avec une efficacité d'échantillonnage supérieure, ne nécessitant qu'environ 10 % des étapes d'optimisation de RLVR, ouvrant ainsi une voie prometteuse pour le post-entraînement des dLLMs. Le code est disponible à l'adresse https://github.com/xingzhejun/d-OPSD.

English

On-policy self-distillation (OPSD) has proven effective for post-training large language models (LLMs), yet its application to diffusion LLMs (dLLMs) remains unexplored. Existing OPSD methods are inherently autoregressive-centric. They inject privileged information via left-to-right prefix conditioning with token-level divergence supervision, a design that fundamentally conflicts with the arbitraryorder generation of dLLMs. We introduce d-OPSD, the first OPSD framework tailored for dLLMs. Our approach makes two core contributions. First, we reframe self-teacher construction by using self-generated answers as suffix conditioning, enabling the student model to learn from "self future-experience" rather than privileged prefixes. Second, we shift supervision from token-level to step-level, aligning training with the iterative denoising process of dLLMs. Experiments across four reasoning benchmarks show that d-OPSD consistently outperforms RLVR and SFT baselines with superior sample efficiency, requiring only around 10% of the optimization steps by RLVR and opening a promising pathway for dLLM posttraining. The code is available at https://github.com/xingzhejun/d-OPSD.