Gradiente de Política Autodestilado

Resumo

A autodestilação on-policy, na qual um modelo de linguagem condiciona-se a um contexto privilegiado para supervisionar suas próprias gerações, é uma fonte promissora de supervisão densa para aprendizado por reforço com recompensa esparsa. Na prática, isso pode ser instanciado como uma perda auxiliar de divergência reversa de Kullback-Leibler entre estudante e professor em vocabulário completo. Propomos, assim, o SDPG, uma estrutura de gradiente de política autodestilada que combina vantagens do verificador relativas ao grupo com desvio padrão normalizado, autodestilação on-policy exata em vocabulário completo, além de regularização KL da política de referência. Empiricamente, o SDPG melhora a estabilidade e o desempenho em relação ao RLVR e às linhas de base de autodestilação. O código está disponível em https://github.com/lauyikfung/SDPG.

English

On-policy self-distillation, where a language model conditions on privileged context to supervise its own generations, is a promising source of dense supervision for sparse-reward reinforcement learning. Actually, it can be instantiated as an auxiliary full-vocabulary student-to-teacher reverse Kullback-Leibler divergence loss. We therefore propose SDPG, a self-distilled policy-gradient framework that combines group-relative verifier advantages with normalized standard deviation, exact full-vocabulary on-policy self-distillation, as well as reference-policy KL regularization. Empirically, SDPG improves stability and performance over RLVR and self-distillation baselines. The code is available at https://github.com/lauyikfung/SDPG.