SG-OPD: Teken-gepoorte Beleidsgetrouwe Destillatie via Tekenconsistentiepoort en Gefaseerde Docentbemonstering

Samenvatting

On-policy destillatie (OPD) traint een student op zijn eigen trajecten met dichte per-token supervisie van een sterkere leraar en presteert vaak beter dan off-policy destillatie en standaard reinforcement learning. We constateren echter dat de effectiviteit ervan impliciet steunt op twee aannames die in de praktijk vaak niet opgaan: alignment op trajectniveau tussen de student en de leraar, en uniforme betrouwbaarheid op token-niveau van de voorkeuren van de leraar. Daarom stellen we Sign-Gated On-Policy Distillation (SG-OPD) voor, die een binaire verificateur gebruikt als vertrouwenssignaal voor de leraar op twee complementaire granulariteiten: gefaseerde lerarensampling mengt door de verificateur goedgekeurde lerarenrollouten bij de koude start, en een tekenconsistentiepoort extrapoleert de destillatie-update op tokens waar de leraar het eens is met de door de verificateur gecorrigeerde richting en interpoleert deze waar hij het oneens is. Experimenten op benchmarks voor wiskundig redeneren op competitieniveau tonen aan dat SG-OPD consequent beter presteert dan standaard OPD, met gemiddelde winsten van respectievelijk 1,98 en 7,50 op het niveau van per sample en per vraag.

English

On-policy distillation (OPD) trains a student on its own trajectories with dense per-token supervision from a stronger teacher, and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its effectiveness implicitly relies on two assumptions that frequently break in practice: trajectory-level alignment between the student and the teacher, and uniform token-level reliability of the teacher's preferences. We therefore propose Sign-Gated On-Policy Distillation (SG-OPD), which uses a binary verifier as a trust signal for the teacher at two complementary granularities: phased teacher sampling mixes in verifier-endorsed teacher rollouts at cold-start, and a sign-consistency gate extrapolates the distillation update on tokens where the teacher agrees with the verifier-correct direction and interpolates it where it disagrees. Experiments on competition-level mathematical reasoning benchmarks show that SG-OPD consistently outperforms standard OPD, with average gains of 1.98 and 7.50 at the per-sample and per-question levels, respectively.