GDSD: Обучение с подкреплением как управляемая самодистилляция денойзера для диффузионных языковых моделей

Аннотация

Обучение с подкреплением (RL) может использоваться для улучшения политики (шумоподавителя) диффузионных больших языковых моделей (dLLM), однако его применение затрудняется невычислимостью правдоподобия политики. Доминирующее и эффективное семейство методов заменяет правдоподобие в стандартном RL на его нижнюю границу доказательства (ELBO), оцениваемую по случайно замаскированным последовательностям. Несмотря на хорошее согласование с предобучением, такие подходы вносят смещение из-за несоответствия обучения и вывода, используя ELBO в качестве суррогата правдоподобия, что может ухудшать производительность. В данной работе мы предлагаем метод управляемой самодистилляции шумоподавителя (GDSD) для прямой дистилляции шумоподавителя dLLM из самоучителя, управляемого преимуществом, который выводится из оптимума в замкнутой форме для RL с регуляризацией обратного KL-расхождения. GDSD согласует логиты шумоподавителя dLLM с логитами учителя с помощью целевой функции без нормализации, что сводит RL к самодистилляции без правдоподобия и, таким образом, обходит смещения, вызванные несоответствием обучения и вывода. Недавние методы на основе ELBO оказываются частными случаями применения различных дивергенций дистилляции, но с диагностируемыми патологиями, которых избегает GDSD. На бенчмарках планирования, математики и программирования с использованием моделей LLaDA-8B и Dream-7B GDSD стабильно превосходит предыдущие передовые методы на основе ELBO, демонстрируя более устойчивую динамику вознаграждения при обучении и достигая улучшения точности на тестах до +19,6%. Эти результаты указывают на то, что прямая самодистилляция шумоподавителя, без опоры на суррогат правдоподобия ELBO, может обеспечить более стабильную и эффективную процедуру RL для dLLM. Код доступен по адресу https://github.com/GaryBall/GDSD.

English

Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered by the intractability of the policy likelihood. A dominant and efficient family of methods replaces the likelihood in standard RL with its evidence lower bound (ELBO), estimated from randomly masked sequences. Despite being well aligned with pre-training, these approaches introduce bias through training--inference mismatch by using the ELBO as a likelihood surrogate, which can degrade performance. In this work, we propose Guided Denoiser Self-Distillation (GDSD) to directly distill the denoiser of dLLMs from an advantage-guided self-teacher, derived from the closed-form optimum of reverse-KL regularized RL. GDSD matches the dLLM's denoiser logits to the teacher's via a normalization-free objective, which reduces RL to likelihood-free self-distillation and thus bypasses the TIM biases. Recent ELBO-based methods emerge as instances of applying different distillation divergences, but with diagnosable pathologies that GDSD avoids. On planning, math, and coding benchmarks with LLaDA-8B and Dream-7B, GDSD consistently outperforms prior state-of-the-art ELBO-based methods with a more stable training reward dynamics, achieving test-accuracy improvements of up to +19.6%. These results suggest that direct denoiser self-distillation, without relying on an ELBO likelihood surrogate, can provide a more stable and effective RL procedure for dLLMs. Code is available at https://github.com/GaryBall/GDSD.