Apprentissage au-delà de l'enseignant : Distillation en politique généralisée avec extrapolation de récompense
Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation
February 12, 2026
papers.authors: Wenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin
cs.AI
papers.abstract
La distillation en-ligne (OPD), qui aligne l'étudiant sur la distribution des logits de l'enseignant via des trajectoires générées par l'étudiant, a démontré des gains empiriques significatifs pour améliorer les performances de l'étudiant, surpassant souvent les paradigmes de distillation hors-ligne et d'apprentissage par renforcement (RL). Dans ce travail, nous montrons d'abord théoriquement que l'OPD est un cas particulier de la RL dense avec contrainte de divergence KL, où la fonction de récompense et la régularisation KL sont toujours pondérées également et où le modèle de référence peut être n'importe quel modèle. Ensuite, nous proposons le cadre de Distillation Généralisée en-Ligne (G-OPD), qui étend l'objectif OPD standard en introduisant un modèle de référence flexible et un facteur d'échelle des récompenses contrôlant le poids relatif du terme de récompense par rapport à la régularisation KL. Par des expériences exhaustives sur des tâches de raisonnement mathématique et de génération de code, nous tirons deux nouvelles conclusions : (1) Fixer le facteur d'échelle des récompenses à une valeur supérieure à 1 (c'est-à-dire une extrapolation de la récompense), que nous nommons ExOPD, améliore constamment les performances par rapport à l'OPD standard pour une gamme de paires de tailles enseignant-étudiant. En particulier, dans le scénario où nous fusionnons les connaissances de différents experts de domaine, obtenues en appliquant un RL spécifique au domaine au même modèle étudiant, dans l'étudiant original, ExOPD permet à l'étudiant de dépasser la limite de performance de l'enseignant et de surpasser les enseignants de domaine. (2) En nous appuyant sur ExOPD, nous constatons en outre que dans le cadre de la distillation fort-vers-faible (c'est-à-dire distiller un étudiant plus petit à partir d'un enseignant plus grand), effectuer une correction de récompense en choisissant le modèle de référence comme le modèle de base de l'enseignant avant le RL produit un signal de récompense plus précis et améliore encore les performances de la distillation. Cependant, ce choix suppose d'avoir accès à la variante pré-RL de l'enseignant et entraîne une surcharge computationnelle accrue. Nous espérons que notre travail offre de nouvelles perspectives pour les recherches futures sur l'OPD.
English
On-policy distillation (OPD), which aligns the student with the teacher's logit distribution on student-generated trajectories, has demonstrated strong empirical gains in improving student performance and often outperforms off-policy distillation and reinforcement learning (RL) paradigms. In this work, we first theoretically show that OPD is a special case of dense KL-constrained RL where the reward function and the KL regularization are always weighted equally and the reference model can by any model. Then, we propose the Generalized On-Policy Distillation (G-OPD) framework, which extends the standard OPD objective by introducing a flexible reference model and a reward scaling factor that controls the relative weight of the reward term against the KL regularization. Through comprehensive experiments on math reasoning and code generation tasks, we derive two novel insights: (1) Setting the reward scaling factor to be greater than 1 (i.e., reward extrapolation), which we term ExOPD, consistently improves over standard OPD across a range of teacher-student size pairings. In particular, in the setting where we merge the knowledge from different domain experts, obtained by applying domain-specific RL to the same student model, back into the original student, ExOPD enables the student to even surpass the teacher's performance boundary and outperform the domain teachers. (2) Building on ExOPD, we further find that in the strong-to-weak distillation setting (i.e., distilling a smaller student from a larger teacher), performing reward correction by choosing the reference model as the teacher's base model before RL yields a more accurate reward signal and further improves distillation performance. However, this choice assumes access to the teacher's pre-RL variant and incurs more computational overhead. We hope our work offers new insights for future research on OPD.