Leren van de eigen toekomst: On-policy zelf-distillatie voor dLLM's

Samenvatting

On-policy zelf-distillatie (OPSD) is effectief gebleken voor het nabewerken van grote taalmodellen (large language models, LLMs), maar de toepassing ervan op diffusie-LLM's (dLLM's) blijft onontgonnen. Bestaande OPSD-methoden zijn inherent autoregressie-gecentreerd. Ze injecteren bevoorrechte informatie via links-naar-rechts prefix-conditionering met token-niveau divergentie-toezicht, een ontwerp dat fundamenteel in strijd is met de generatie in willekeurige volgorde van dLLM's. We introduceren d-OPSD, het eerste OPSD-raamwerk dat is afgestemd op dLLM's. Onze aanpak levert twee kernbijdragen. Ten eerste herformuleren we de zelfleraarconstructie door zelf gegenereerde antwoorden te gebruiken als suffix-conditionering, waardoor het studentenmodel kan leren van 'zelf-toekomstervaring' in plaats van bevoorrechte prefixen. Ten tweede verschuiven we het toezicht van token-niveau naar stap-niveau, waarbij de training wordt afgestemd op het iteratieve denoising-proces van dLLM's. Experimenten op vier redeneringsbenchmarks tonen aan dat d-OPSD consequent beter presteert dan RLVR- en SFT-baselines met superieure steekproefefficiëntie, waarbij slechts ongeveer 10% van de optimalisatiestappen van RLVR nodig is en een veelbelovende weg opent voor dLLM-nabewerking. De code is beschikbaar op https://github.com/xingzhejun/d-OPSD.

English

On-policy self-distillation (OPSD) has proven effective for post-training large language models (LLMs), yet its application to diffusion LLMs (dLLMs) remains unexplored. Existing OPSD methods are inherently autoregressive-centric. They inject privileged information via left-to-right prefix conditioning with token-level divergence supervision, a design that fundamentally conflicts with the arbitraryorder generation of dLLMs. We introduce d-OPSD, the first OPSD framework tailored for dLLMs. Our approach makes two core contributions. First, we reframe self-teacher construction by using self-generated answers as suffix conditioning, enabling the student model to learn from "self future-experience" rather than privileged prefixes. Second, we shift supervision from token-level to step-level, aligning training with the iterative denoising process of dLLMs. Experiments across four reasoning benchmarks show that d-OPSD consistently outperforms RLVR and SFT baselines with superior sample efficiency, requiring only around 10% of the optimization steps by RLVR and opening a promising pathway for dLLM posttraining. The code is available at https://github.com/xingzhejun/d-OPSD.