GDSD: Reinforcement Learning als geführte Denoiser-Selbst-Destillation für Diffusions-Sprachmodelle

Zusammenfassung

Bestärkendes Lernen (RL) kann genutzt werden, um die Politik (Denoiser) von Diffusions-Großsprachmodellen (dLLMs) zu verbessern, wird jedoch durch die Nicht-Berechenbarkeit der Politik-Likelihood behindert. Eine dominante und effiziente Methodenfamilie ersetzt die Likelihood im Standard-RL durch ihre Evidenz-Untergrenze (ELBO), die aus zufällig maskierten Sequenzen geschätzt wird. Obwohl diese Ansätze gut mit dem Vortraining harmonieren, führen sie durch die Verwendung der ELBO als Likelihood-Ersatz eine Verzerrung durch Trainings-Inferenz-Diskrepanz (TIM) ein, was die Leistung beeinträchtigen kann. In dieser Arbeit schlagen wir Guided Denoiser Self-Distillation (GDSD) vor, um den Denoiser von dLLMs direkt aus einem vorteilsgeführten Selbst-Lehrer zu destillieren, der aus dem geschlossenen Optimum des mit umgekehrter KL-Divergenz regularisierten RL abgeleitet ist. GDSD gleicht die Denoiser-Logits des dLLMs mit denen des Lehrers über ein normalisierungsfreies Ziel ab, wodurch RL auf likelihood-freie Selbst-Destillation reduziert wird und die TIM-Verzerrungen umgangen werden. Jüngste ELBO-basierte Methoden erweisen sich als Instanzen der Anwendung verschiedener Destillationsdivergenzen, weisen jedoch diagnostizierbare Pathologien auf, die GDSD vermeidet. Auf Planungs-, Mathematik- und Programmier-Benchmarks mit LLaDA-8B und Dream-7B übertrifft GDSD konsequent frühere hochmoderne ELBO-basierte Methoden mit einer stabileren Trainings-Belohnungsdynamik und erzielt Steigerungen der Testgenauigkeit von bis zu +19,6%. Diese Ergebnisse deuten darauf hin, dass eine direkte Denoiser-Selbst-Destillation ohne Rückgriff auf einen ELBO-Likelihood-Ersatz ein stabileres und effektiveres RL-Verfahren für dLLMs bieten kann. Der Code ist verfügbar unter https://github.com/GaryBall/GDSD.

English

Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered by the intractability of the policy likelihood. A dominant and efficient family of methods replaces the likelihood in standard RL with its evidence lower bound (ELBO), estimated from randomly masked sequences. Despite being well aligned with pre-training, these approaches introduce bias through training--inference mismatch by using the ELBO as a likelihood surrogate, which can degrade performance. In this work, we propose Guided Denoiser Self-Distillation (GDSD) to directly distill the denoiser of dLLMs from an advantage-guided self-teacher, derived from the closed-form optimum of reverse-KL regularized RL. GDSD matches the dLLM's denoiser logits to the teacher's via a normalization-free objective, which reduces RL to likelihood-free self-distillation and thus bypasses the TIM biases. Recent ELBO-based methods emerge as instances of applying different distillation divergences, but with diagnosable pathologies that GDSD avoids. On planning, math, and coding benchmarks with LLaDA-8B and Dream-7B, GDSD consistently outperforms prior state-of-the-art ELBO-based methods with a more stable training reward dynamics, achieving test-accuracy improvements of up to +19.6%. These results suggest that direct denoiser self-distillation, without relying on an ELBO likelihood surrogate, can provide a more stable and effective RL procedure for dLLMs. Code is available at https://github.com/GaryBall/GDSD.