ChatPaper.aiChatPaper

Aprendizaje más allá del Maestro: Destilación Generalizada en Políticas con Extrapolación de Recompensas

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

February 12, 2026
Autores: Wenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin
cs.AI

Resumen

La destilación bajo política (OPD), que alinea al estudiante con la distribución de logits del profesor en trayectorias generadas por el estudiante, ha demostrado importantes ganancias empíricas en la mejora del rendimiento del estudiante y a menudo supera a los paradigmas de destilación fuera de política y de aprendizaje por refuerzo (RL). En este trabajo, primero demostramos teóricamente que OPD es un caso especial de RL denso con restricción KL donde la función de recompensa y la regularización KL siempre se ponderan por igual y el modelo de referencia puede ser cualquier modelo. Luego, proponemos el marco de Destilación Generalizada Bajo Política (G-OPD), que extiende el objetivo OPD estándar introduciendo un modelo de referencia flexible y un factor de escala de recompensa que controla el peso relativo del término de recompensa frente a la regularización KL. A través de experimentos exhaustivos en tareas de razonamiento matemático y generación de código, derivamos dos nuevas perspectivas: (1) Establecer el factor de escala de recompensa mayor que 1 (es decir, extrapolación de recompensa), lo que denominamos ExOPD, mejora consistentemente respecto a OPD estándar en una variedad de emparejamientos de tamaño profesor-estudiante. En particular, en el escenario donde fusionamos el conocimiento de diferentes expertos de dominio, obtenido aplicando RL específico de dominio al mismo modelo estudiante, de vuelta en el estudiante original, ExOPD permite al estudiante incluso superar el límite de rendimiento del profesor y superar a los profesores de dominio. (2) Partiendo de ExOPD, encontramos además que en el entorno de destilación de fuerte a débil (es decir, destilar un estudiante más pequeño a partir de un profesor más grande), realizar una corrección de recompensa eligiendo el modelo de referencia como el modelo base del profesor antes de RL produce una señal de recompensa más precisa y mejora aún más el rendimiento de la destilación. Sin embargo, esta elección supone tener acceso a la variante pre-RL del profesor e incurre en una mayor sobrecarga computacional. Esperamos que nuestro trabajo ofrezca nuevas perspectivas para futuras investigaciones sobre OPD.
English
On-policy distillation (OPD), which aligns the student with the teacher's logit distribution on student-generated trajectories, has demonstrated strong empirical gains in improving student performance and often outperforms off-policy distillation and reinforcement learning (RL) paradigms. In this work, we first theoretically show that OPD is a special case of dense KL-constrained RL where the reward function and the KL regularization are always weighted equally and the reference model can by any model. Then, we propose the Generalized On-Policy Distillation (G-OPD) framework, which extends the standard OPD objective by introducing a flexible reference model and a reward scaling factor that controls the relative weight of the reward term against the KL regularization. Through comprehensive experiments on math reasoning and code generation tasks, we derive two novel insights: (1) Setting the reward scaling factor to be greater than 1 (i.e., reward extrapolation), which we term ExOPD, consistently improves over standard OPD across a range of teacher-student size pairings. In particular, in the setting where we merge the knowledge from different domain experts, obtained by applying domain-specific RL to the same student model, back into the original student, ExOPD enables the student to even surpass the teacher's performance boundary and outperform the domain teachers. (2) Building on ExOPD, we further find that in the strong-to-weak distillation setting (i.e., distilling a smaller student from a larger teacher), performing reward correction by choosing the reference model as the teacher's base model before RL yields a more accurate reward signal and further improves distillation performance. However, this choice assumes access to the teacher's pre-RL variant and incurs more computational overhead. We hope our work offers new insights for future research on OPD.
PDF532February 14, 2026