SG-OPD: Destilação On-Policy com Portão de Sinal via Portão de Consistência de Sinal e Amostragem em Fases do Professor

Resumo

A destilação on-policy (OPD) treina um aluno em suas próprias trajetórias com supervisão densa por token de um professor mais forte, e frequentemente supera a destilação off-policy e o aprendizado por reforço padrão. No entanto, descobrimos que sua eficácia depende implicitamente de duas suposições que frequentemente falham na prática: alinhamento em nível de trajetória entre o aluno e o professor, e confiabilidade uniforme em nível de token das preferências do professor. Portanto, propomos a Destilação On-Policy com Portão de Sinal (SG-OPD), que utiliza um verificador binário como sinal de confiança para o professor em duas granularidades complementares: amostragem faseada do professor que incorpora rolagens do professor endossadas pelo verificador no início frio, e um portão de consistência de sinal que extrapola a atualização de destilação em tokens onde o professor concorda com a direção corrigida pelo verificador e a interpola onde discorda. Experimentos em benchmarks de raciocínio matemático em nível de competição mostram que o SG-OPD supera consistentemente o OPD padrão, com ganhos médios de 1,98 e 7,50 nos níveis por amostra e por questão, respectivamente.

English

On-policy distillation (OPD) trains a student on its own trajectories with dense per-token supervision from a stronger teacher, and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its effectiveness implicitly relies on two assumptions that frequently break in practice: trajectory-level alignment between the student and the teacher, and uniform token-level reliability of the teacher's preferences. We therefore propose Sign-Gated On-Policy Distillation (SG-OPD), which uses a binary verifier as a trust signal for the teacher at two complementary granularities: phased teacher sampling mixes in verifier-endorsed teacher rollouts at cold-start, and a sign-consistency gate extrapolates the distillation update on tokens where the teacher agrees with the verifier-correct direction and interpolates it where it disagrees. Experiments on competition-level mathematical reasoning benchmarks show that SG-OPD consistently outperforms standard OPD, with average gains of 1.98 and 7.50 at the per-sample and per-question levels, respectively.