Lernen über den Lehrer hinaus: Verallgemeinerte On-Policy-Destillation mit Belohnungsextrapolation
Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation
February 12, 2026
papers.authors: Wenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin
cs.AI
papers.abstract
On-Policy Distillation (OPD), bei der der Student mit der Logit-Verteilung des Teachers auf vom Studenten generierten Trajektorien abgeglichen wird, hat in der Praxis deutliche Verbesserungen der Studentenleistung gezeigt und übertrifft oft Off-Policy Distillation sowie Reinforcement-Learning(RL)-Paradigmen. In dieser Arbeit zeigen wir zunächst theoretisch, dass OPD ein Spezialfall von dichtem, KL-regularisiertem RL ist, bei dem Belohnungsfunktion und KL-Regularisierung stets gleich gewichtet werden und das Referenzmodell ein beliebiges Modell sein kann. Anschließend schlagen wir den Generalized On-Policy Distillation (G-OPD) Rahmen vor, der das Standard-OPD-Ziel erweitert, indem ein flexibles Referenzmodell und ein Skalierungsfaktor für die Belohnung eingeführt werden, der das relative Gewicht des Belohnungsterms gegenüber der KL-Regularisierung steuert. Durch umfangreiche Experimente zu mathematischem Reasoning und Code-Generierung leiten wir zwei neue Erkenntnisse ab: (1) Die Wahl eines Skalierungsfaktors größer 1 (sog. Belohnungsextrapolation), die wir als ExOPD bezeichnen, führt durchweg zu besseren Ergebnissen als Standard-OPD über verschiedene Teacher-Student-Größenverhältnisse hinweg. Insbesondere wenn das Wissen verschiedener Domain-Experten, gewonnen durch domänenspezifisches RL auf demselben Studentenmodell, zurück in den ursprünglichen Studenten integriert wird, ermöglicht ExOPD dem Studenten sogar, die Leistungsgrenze des Teachers zu übertreffen und die Domain-Teachers zu übertreffen. (2) Aufbauend auf ExOPD stellen wir weiter fest, dass im Strong-to-Weak-Distillation-Setting (d.h. bei der Destillation eines kleineren Studenten von einem größeren Teacher) eine Belohnungskorrektur durch Wahl des Referenzmodells als Basis-Modell des Teachers vor dem RL-Training ein genaueres Belohnungssignal liefert und die Destillationsleistung weiter verbessert. Diese Wahl setzt jedoch Zugang zur Pre-RL-Variante des Teachers voraus und verursacht höheren Rechenaufwand. Wir hoffen, dass unsere Arbeit neue Impulse für die zukünftige OPD-Forschung liefert.
English
On-policy distillation (OPD), which aligns the student with the teacher's logit distribution on student-generated trajectories, has demonstrated strong empirical gains in improving student performance and often outperforms off-policy distillation and reinforcement learning (RL) paradigms. In this work, we first theoretically show that OPD is a special case of dense KL-constrained RL where the reward function and the KL regularization are always weighted equally and the reference model can by any model. Then, we propose the Generalized On-Policy Distillation (G-OPD) framework, which extends the standard OPD objective by introducing a flexible reference model and a reward scaling factor that controls the relative weight of the reward term against the KL regularization. Through comprehensive experiments on math reasoning and code generation tasks, we derive two novel insights: (1) Setting the reward scaling factor to be greater than 1 (i.e., reward extrapolation), which we term ExOPD, consistently improves over standard OPD across a range of teacher-student size pairings. In particular, in the setting where we merge the knowledge from different domain experts, obtained by applying domain-specific RL to the same student model, back into the original student, ExOPD enables the student to even surpass the teacher's performance boundary and outperform the domain teachers. (2) Building on ExOPD, we further find that in the strong-to-weak distillation setting (i.e., distilling a smaller student from a larger teacher), performing reward correction by choosing the reference model as the teacher's base model before RL yields a more accurate reward signal and further improves distillation performance. However, this choice assumes access to the teacher's pre-RL variant and incurs more computational overhead. We hope our work offers new insights for future research on OPD.