Aprendizagem Além do Professor: Destilação Generalizada em Tempo Real com Extrapolação de Recompensa

Resumo

A destilação em política (OPD), que alinha o aluno com a distribuição de logits do professor em trajetórias geradas pelo aluno, demonstrou ganhos empíricos significativos na melhoria do desempenho do aluno e frequentemente supera os paradigmas de destilação fora da política e de aprendizagem por reforço (RL). Neste trabalho, primeiro demonstramos teoricamente que a OPD é um caso especial de RL densa com restrição de KL, onde a função de recompensa e a regularização KL são sempre ponderadas igualmente e o modelo de referência pode ser qualquer modelo. Em seguida, propomos a estrutura de Destilação Generalizada em Política (G-OPD), que estende o objetivo padrão da OPD ao introduzir um modelo de referência flexível e um fator de escala de recompensa que controla o peso relativo do termo de recompensa contra a regularização KL. Através de experimentos abrangentes em tarefas de raciocínio matemático e geração de código, derivamos duas novas percepções: (1) Definir o fator de escala de recompensa para ser maior que 1 (ou seja, extrapolação de recompensa), que denominamos ExOPD, melhora consistentemente em relação à OPD padrão em uma variedade de pares de tamanho professor-aluno. Em particular, na configuração em que fundimos o conhecimento de diferentes especialistas de domínio, obtidos pela aplicação de RL específico de domínio ao mesmo modelo aluno, de volta ao aluno original, a ExOPD permite que o aluno ultrapasse até mesmo o limite de desempenho do professor e supere os professores de domínio. (2) Com base na ExOPD, descobrimos ainda que, na configuração de destilação forte-para-fraco (ou seja, destilar um aluno menor a partir de um professor maior), realizar a correção de recompensa escolhendo o modelo de referência como o modelo base do professor antes do RL produz um sinal de recompensa mais preciso e melhora ainda mais o desempenho da destilação. No entanto, esta escolha pressupõe o acesso à variante pré-RL do professor e incorre em maior sobrecarga computacional. Esperamos que o nosso trabalho ofereça novas perspetivas para futuras pesquisas sobre OPD.

English

On-policy distillation (OPD), which aligns the student with the teacher's logit distribution on student-generated trajectories, has demonstrated strong empirical gains in improving student performance and often outperforms off-policy distillation and reinforcement learning (RL) paradigms. In this work, we first theoretically show that OPD is a special case of dense KL-constrained RL where the reward function and the KL regularization are always weighted equally and the reference model can by any model. Then, we propose the Generalized On-Policy Distillation (G-OPD) framework, which extends the standard OPD objective by introducing a flexible reference model and a reward scaling factor that controls the relative weight of the reward term against the KL regularization. Through comprehensive experiments on math reasoning and code generation tasks, we derive two novel insights: (1) Setting the reward scaling factor to be greater than 1 (i.e., reward extrapolation), which we term ExOPD, consistently improves over standard OPD across a range of teacher-student size pairings. In particular, in the setting where we merge the knowledge from different domain experts, obtained by applying domain-specific RL to the same student model, back into the original student, ExOPD enables the student to even surpass the teacher's performance boundary and outperform the domain teachers. (2) Building on ExOPD, we further find that in the strong-to-weak distillation setting (i.e., distilling a smaller student from a larger teacher), performing reward correction by choosing the reference model as the teacher's base model before RL yields a more accurate reward signal and further improves distillation performance. However, this choice assumes access to the teacher's pre-RL variant and incurs more computational overhead. We hope our work offers new insights for future research on OPD.

Aprendizagem Além do Professor: Destilação Generalizada em Tempo Real com Extrapolação de Recompensa

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Resumo

Support