GDSD : L'apprentissage par renforcement comme auto-distillation guidée par débruiteur pour les modèles de langage à diffusion

Résumé

L'apprentissage par renforcement (RL) peut être utilisé pour améliorer la politique (débruitage) des modèles de langage de grande taille par diffusion (dLLMs), mais est entravé par l'intractabilité de la vraisemblance de la politique. Une famille de méthodes dominante et efficace remplace la vraisemblance dans le RL standard par sa borne inférieure de la vraisemblance (ELBO), estimée à partir de séquences masquées aléatoirement. Bien qu'elles soient bien alignées avec le pré-entraînement, ces approches introduisent un biais via le décalage entre l'entraînement et l'inférence (TIM) en utilisant l'ELBO comme substitut de vraisemblance, ce qui peut dégrader les performances. Dans ce travail, nous proposons l'Auto-Distillation Guidée du Débruitage (GDSD) pour distiller directement le débruitage des dLLMs à partir d'un auto-enseignant guidé par l'avantage, dérivé de l'optimum sous forme fermée du RL régularisé par divergence KL inverse. GDSD fait correspondre les logits de débruitage du dLLM à ceux de l'enseignant via un objectif sans normalisation, ce qui réduit le RL à une auto-distillation sans vraisemblance et contourne ainsi les biais du TIM. Les méthodes récentes basées sur l'ELBO apparaissent comme des instances appliquant différentes divergences de distillation, mais avec des pathologies diagnostiquables que GDSD évite. Sur des benchmarks de planification, de mathématiques et de codage avec LLaDA-8B et Dream-7B, GDSD surpasse systématiquement les méthodes antérieures de pointe basées sur l'ELBO, avec une dynamique de récompense d'entraînement plus stable, atteignant des améliorations de précision de test allant jusqu'à +19,6 %. Ces résultats suggèrent que l'auto-distillation directe du débruitage, sans recourir à un substitut de vraisemblance basé sur l'ELBO, peut fournir une procédure RL plus stable et plus efficace pour les dLLMs. Le code est disponible à l'adresse https://github.com/GaryBall/GDSD.

English

Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered by the intractability of the policy likelihood. A dominant and efficient family of methods replaces the likelihood in standard RL with its evidence lower bound (ELBO), estimated from randomly masked sequences. Despite being well aligned with pre-training, these approaches introduce bias through training--inference mismatch by using the ELBO as a likelihood surrogate, which can degrade performance. In this work, we propose Guided Denoiser Self-Distillation (GDSD) to directly distill the denoiser of dLLMs from an advantage-guided self-teacher, derived from the closed-form optimum of reverse-KL regularized RL. GDSD matches the dLLM's denoiser logits to the teacher's via a normalization-free objective, which reduces RL to likelihood-free self-distillation and thus bypasses the TIM biases. Recent ELBO-based methods emerge as instances of applying different distillation divergences, but with diagnosable pathologies that GDSD avoids. On planning, math, and coding benchmarks with LLaDA-8B and Dream-7B, GDSD consistently outperforms prior state-of-the-art ELBO-based methods with a more stable training reward dynamics, achieving test-accuracy improvements of up to +19.6%. These results suggest that direct denoiser self-distillation, without relying on an ELBO likelihood surrogate, can provide a more stable and effective RL procedure for dLLMs. Code is available at https://github.com/GaryBall/GDSD.