Lernen aus der eigenen Zukunft: On-Policy-Selbstdestillation für dLLMs

Zusammenfassung

On-Policy-Selbstdestillation (OPSD) hat sich als wirksam für das Post-Training großer Sprachmodelle (LLMs) erwiesen, jedoch bleibt ihre Anwendung auf Diffusions-LLMs (dLLMs) bisher unerforscht. Bestehende OPSD-Methoden sind inhärent autoregressiv-zentriert: Sie injizieren privilegierte Informationen über eine Links-nach-Rechts-Präfixkonditionierung mit Token-Level-Divergenzüberwachung – ein Design, das grundlegend mit der Generierung in beliebiger Reihenfolge bei dLLMs kollidiert. Wir stellen d-OPSD vor, das erste OPSD-Framework, das speziell für dLLMs entwickelt wurde. Unser Ansatz umfasst zwei Kernbeiträge. Erstens definieren wir die Konstruktion des Selbstlehrers neu, indem wir selbstgenerierte Antworten als Suffixkonditionierung nutzen, sodass das Schülermodell aus „zukünftiger Selbsterfahrung“ anstatt aus privilegierten Präfixen lernen kann. Zweitens verlagern wir die Überwachung von der Token-Ebene auf die Schritt-Ebene und richten das Training so am iterativen Entrauschungsprozess von dLLMs aus. Experimente mit vier Reasoning-Benchmarks zeigen, dass d-OPSD konsistent besser abschneidet als RLVR- und SFT-Baselines, bei deutlich höherer Stichprobeneffizienz: Es benötigt nur etwa 10 % der Optimierungsschritte von RLVR und eröffnet damit einen vielversprechenden Weg für das Post-Training von dLLMs. Der Code ist verfügbar unter https://github.com/xingzhejun/d-OPSD.

English

On-policy self-distillation (OPSD) has proven effective for post-training large language models (LLMs), yet its application to diffusion LLMs (dLLMs) remains unexplored. Existing OPSD methods are inherently autoregressive-centric. They inject privileged information via left-to-right prefix conditioning with token-level divergence supervision, a design that fundamentally conflicts with the arbitraryorder generation of dLLMs. We introduce d-OPSD, the first OPSD framework tailored for dLLMs. Our approach makes two core contributions. First, we reframe self-teacher construction by using self-generated answers as suffix conditioning, enabling the student model to learn from "self future-experience" rather than privileged prefixes. Second, we shift supervision from token-level to step-level, aligning training with the iterative denoising process of dLLMs. Experiments across four reasoning benchmarks show that d-OPSD consistently outperforms RLVR and SFT baselines with superior sample efficiency, requiring only around 10% of the optimization steps by RLVR and opening a promising pathway for dLLM posttraining. The code is available at https://github.com/xingzhejun/d-OPSD.