Обучение за пределами учителя: Обобщенная дистилляция в режиме реального времени с экстраполяцией вознаграждений
Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation
February 12, 2026
Авторы: Wenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin
cs.AI
Аннотация
Он-политическая дистилляция (OPD), которая выравнивает распределение логитов ученика относительно учителя на траекториях, сгенерированных учеником, показала значительные эмпирические преимущества в улучшении производительности ученика и часто превосходит парадигмы офф-политической дистилляции и обучения с подкреплением (RL). В данной работе мы сначала теоретически показываем, что OPD является частным случаем RL с плотным KL-ограничением, где функция вознаграждения и KL-регуляризация всегда взвешены одинаково, а эталонной моделью может быть любая модель. Затем мы предлагаем фреймворк Обобщенной Он-политической Дистилляции (G-OPD), который расширяет стандартную цель OPD за счет введения гибкой эталонной модели и масштабирующего коэффициента вознаграждения, контролирующего относительный вес члена вознаграждения по сравнению с KL-регуляризацией. В ходе всесторонних экспериментов по математическим рассуждениям и генерации кода мы получаем два новых вывода: (1) Установка масштабирующего коэффициента вознаграждения больше 1 (т.е. экстраполяция вознаграждения), что мы называем ExOPD, последовательно улучшает результаты по сравнению со стандартной OPD для различных пар соотношений размеров учитель-ученик. В частности, в сценарии, где мы объединяем знания от различных доменных экспертов, полученные применением доменно-специфичного RL к одной и той же модели-ученику, обратно в исходного ученика, ExOPD позволяет ученику превзойти границу производительности учителя и обойти доменных учителей. (2) Основываясь на ExOPD, мы далее обнаруживаем, что в условиях дистилляции от сильного к слабому (т.е. дистилляция меньшего ученика от большего учителя), выполнение коррекции вознаграждения путем выбора в качестве эталонной модели базовой модели учителя до RL дает более точный сигнал вознаграждения и дополнительно улучшает производительность дистилляции. Однако этот выбор предполагает доступ к варианту учителя до RL и влечет за собой большие вычислительные затраты. Мы надеемся, что наша работа предложит новые идеи для будущих исследований OPD.
English
On-policy distillation (OPD), which aligns the student with the teacher's logit distribution on student-generated trajectories, has demonstrated strong empirical gains in improving student performance and often outperforms off-policy distillation and reinforcement learning (RL) paradigms. In this work, we first theoretically show that OPD is a special case of dense KL-constrained RL where the reward function and the KL regularization are always weighted equally and the reference model can by any model. Then, we propose the Generalized On-Policy Distillation (G-OPD) framework, which extends the standard OPD objective by introducing a flexible reference model and a reward scaling factor that controls the relative weight of the reward term against the KL regularization. Through comprehensive experiments on math reasoning and code generation tasks, we derive two novel insights: (1) Setting the reward scaling factor to be greater than 1 (i.e., reward extrapolation), which we term ExOPD, consistently improves over standard OPD across a range of teacher-student size pairings. In particular, in the setting where we merge the knowledge from different domain experts, obtained by applying domain-specific RL to the same student model, back into the original student, ExOPD enables the student to even surpass the teacher's performance boundary and outperform the domain teachers. (2) Building on ExOPD, we further find that in the strong-to-weak distillation setting (i.e., distilling a smaller student from a larger teacher), performing reward correction by choosing the reference model as the teacher's base model before RL yields a more accurate reward signal and further improves distillation performance. However, this choice assumes access to the teacher's pre-RL variant and incurs more computational overhead. We hope our work offers new insights for future research on OPD.