SG-OPD: Vorzeichengesteuerte On-Policy-Destillation mittels Vorzeichenkonsistenz-Gating und gestaffeltem Teacher-Sampling

Zusammenfassung

On-Policy-Destillation (OPD) trainiert einen Schüler auf dessen eigenen Trajektorien mit dichter Pro-Token-Überwachung durch einen stärkeren Lehrer und übertrifft häufig die Off-Policy-Destillation sowie das standardmäßige Reinforcement Learning. Wir stellen jedoch fest, dass seine Wirksamkeit implizit auf zwei Annahmen beruht, die in der Praxis häufig verletzt werden: die trajektorienweise Ausrichtung zwischen Schüler und Lehrer sowie die gleichmäßige Zuverlässigkeit der Lehrerpräferenzen auf Token-Ebene. Daher schlagen wir die Sign-Gated On-Policy Distillation (SG-OPD) vor, die einen binären Verifizierer als Vertrauenssignal für den Lehrer auf zwei sich ergänzenden Granularitätsebenen einsetzt: gestaffeltes Lehrer-Sampling mischt vom Verifizierer bestätigte Lehrer-Rollouts beim Kaltstart ein, und ein Vorzeichenkonsistenz-Gatter extrahiert den Destillations-Update auf Token, bei denen der Lehrer mit der verifiziererkorrigierten Richtung übereinstimmt, und interpoliert ihn, wo er abweicht. Experimente zu mathematischen Reasoning-Benchmarks auf Wettbewerbsniveau zeigen, dass SG-OPD durchgängig besser abschneidet als Standard-OPD, mit durchschnittlichen Verbesserungen von 1,98 bzw. 7,50 auf Pro-Stichproben- bzw. Pro-Fragen-Ebene.

English

On-policy distillation (OPD) trains a student on its own trajectories with dense per-token supervision from a stronger teacher, and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its effectiveness implicitly relies on two assumptions that frequently break in practice: trajectory-level alignment between the student and the teacher, and uniform token-level reliability of the teacher's preferences. We therefore propose Sign-Gated On-Policy Distillation (SG-OPD), which uses a binary verifier as a trust signal for the teacher at two complementary granularities: phased teacher sampling mixes in verifier-endorsed teacher rollouts at cold-start, and a sign-consistency gate extrapolates the distillation update on tokens where the teacher agrees with the verifier-correct direction and interpolates it where it disagrees. Experiments on competition-level mathematical reasoning benchmarks show that SG-OPD consistently outperforms standard OPD, with average gains of 1.98 and 7.50 at the per-sample and per-question levels, respectively.