SG-OPD: знаково-гейтированная дистилляция по текущей политике посредством гейтирования по согласованности знаков и поэтапного сэмплирования учителя

Аннотация

Дистилляция на политике (On-policy distillation, OPD) обучает студента на его собственных траекториях с плотным пото́кенным контролем со стороны более сильного учителя и часто превосходит дистилляцию вне политики и стандартное обучение с подкреплением. Однако мы обнаружили, что её эффективность неявно опирается на два допущения, которые на практике часто нарушаются: согласование траекторий между студентом и учителем, а также равномерная надежность предпочтений учителя на уровне токенов. Поэтому мы предлагаем дистилляцию на политике с управлением по знаку (Sign-Gated On-Policy Distillation, SG-OPD), которая использует бинарный верификатор в качестве сигнала доверия к учителю на двух дополняющих друг друга уровнях детализации: поэтапная выборка учителя смешивает одобренные верификатором роллауты учителя на этапе холодного старта, а вентиль согласованности знаков экстраполирует обновление дистилляции на токенах, где учитель согласен с направлением, скорректированным верификатором, и интерполирует его там, где возникают разногласия. Эксперименты на бенчмарках по математическим рассуждениям уровня соревнований показывают, что SG-OPD стабильно превосходит стандартную OPD, обеспечивая средний прирост в 1,98 и 7,50 на уровне отдельных выборок и отдельных вопросов соответственно.

English

On-policy distillation (OPD) trains a student on its own trajectories with dense per-token supervision from a stronger teacher, and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its effectiveness implicitly relies on two assumptions that frequently break in practice: trajectory-level alignment between the student and the teacher, and uniform token-level reliability of the teacher's preferences. We therefore propose Sign-Gated On-Policy Distillation (SG-OPD), which uses a binary verifier as a trust signal for the teacher at two complementary granularities: phased teacher sampling mixes in verifier-endorsed teacher rollouts at cold-start, and a sign-consistency gate extrapolates the distillation update on tokens where the teacher agrees with the verifier-correct direction and interpolates it where it disagrees. Experiments on competition-level mathematical reasoning benchmarks show that SG-OPD consistently outperforms standard OPD, with average gains of 1.98 and 7.50 at the per-sample and per-question levels, respectively.