Zelfgedistilleerde Beleidsgradiënt

Samenvatting

On-policy zelfdistillatie, waarbij een taalmodel conditioneert op bevoorrechte context om zijn eigen generaties te superviseren, is een veelbelovende bron van dichte supervisie voor versterkend leren met schaarse beloningen. Het kan feitelijk worden geïnstantieerd als een aanvullend verlies gebaseerd op de omgekeerde Kullback-Leibler-divergentie van student naar docent voor de volledige woordenschat. Daarom stellen we SDPG voor, een zelf-gedistilleerd beleidsgradiëntraamwerk dat groepsrelatieve verifier-voordelen combineert met genormaliseerde standaarddeviatie, exacte volledige-woordenschat on-policy zelfdistillatie, en referentiebeleid KL-regularisatie. Empirisch gezien verbetert SDPG de stabiliteit en prestaties ten opzichte van RLVR- en zelfdistillatie-baselines. De code is beschikbaar op https://github.com/lauyikfung/SDPG.

English

On-policy self-distillation, where a language model conditions on privileged context to supervise its own generations, is a promising source of dense supervision for sparse-reward reinforcement learning. Actually, it can be instantiated as an auxiliary full-vocabulary student-to-teacher reverse Kullback-Leibler divergence loss. We therefore propose SDPG, a self-distilled policy-gradient framework that combines group-relative verifier advantages with normalized standard deviation, exact full-vocabulary on-policy self-distillation, as well as reference-policy KL regularization. Empirically, SDPG improves stability and performance over RLVR and self-distillation baselines. The code is available at https://github.com/lauyikfung/SDPG.