GDSD: Aprendizaje por Refuerzo como Autodestilación de Denoiser Guiado para Modelos de Lenguaje de Difusión

Resumen

El aprendizaje por refuerzo (RL) puede utilizarse para mejorar la política (eliminador de ruido o *denoiser*) de los modelos de lenguaje grandes de difusión (dLLM), aunque se ve obstaculizado por la intratabilidad de la verosimilitud de la política. Una familia de métodos dominante y eficiente reemplaza la verosimilitud en el RL estándar por su cota inferior de la evidencia (ELBO), estimada a partir de secuencias enmascaradas aleatoriamente. A pesar de estar bien alineados con el preentrenamiento, estos enfoques introducen sesgo a través del desajuste entre entrenamiento e inferencia al utilizar la ELBO como sustituto de la verosimilitud, lo que puede degradar el rendimiento. En este trabajo, proponemos la Autodestilación Guiada del Eliminador de Ruido (*Guided Denoiser Self-Distillation*, GDSD) para destilar directamente el eliminador de ruido de los dLLM a partir de un auto-maestro guiado por la ventaja, derivado del óptimo en forma cerrada del RL regularizado con divergencia KL inversa. GDSD iguala los logits del eliminador de ruido del dLLM con los del maestro mediante un objetivo libre de normalización, lo que reduce el RL a una autodestilación sin verosimilitud y, por tanto, evita los sesgos del desajuste entre entrenamiento e inferencia. Los métodos recientes basados en ELBO surgen como casos particulares al aplicar diferentes divergencias de destilación, pero con patologías diagnosticables que GDSD evita. En los benchmarks de planificación, matemáticas y codificación con LLaDA-8B y Dream-7B, GDSD supera consistentemente a los métodos previos basados en ELBO, presentando una dinámica de recompensa de entrenamiento más estable y logrando mejoras de precisión en pruebas de hasta +19,6%. Estos resultados sugieren que la autodestilación directa del eliminador de ruido, sin depender de un sustituto de verosimilitud basado en ELBO, puede proporcionar un procedimiento de RL más estable y efectivo para los dLLM. El código está disponible en https://github.com/GaryBall/GDSD.

English

Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered by the intractability of the policy likelihood. A dominant and efficient family of methods replaces the likelihood in standard RL with its evidence lower bound (ELBO), estimated from randomly masked sequences. Despite being well aligned with pre-training, these approaches introduce bias through training--inference mismatch by using the ELBO as a likelihood surrogate, which can degrade performance. In this work, we propose Guided Denoiser Self-Distillation (GDSD) to directly distill the denoiser of dLLMs from an advantage-guided self-teacher, derived from the closed-form optimum of reverse-KL regularized RL. GDSD matches the dLLM's denoiser logits to the teacher's via a normalization-free objective, which reduces RL to likelihood-free self-distillation and thus bypasses the TIM biases. Recent ELBO-based methods emerge as instances of applying different distillation divergences, but with diagnosable pathologies that GDSD avoids. On planning, math, and coding benchmarks with LLaDA-8B and Dream-7B, GDSD consistently outperforms prior state-of-the-art ELBO-based methods with a more stable training reward dynamics, achieving test-accuracy improvements of up to +19.6%. These results suggest that direct denoiser self-distillation, without relying on an ELBO likelihood surrogate, can provide a more stable and effective RL procedure for dLLMs. Code is available at https://github.com/GaryBall/GDSD.