SG-OPD: Destilación en-política con compuerta de signo mediante compuerta de consistencia de signo y muestreo de profesor por fases

Resumen

La destilación on-policy (OPD) entrena a un estudiante en sus propias trayectorias con una supervisión densa por token proveniente de un profesor más fuerte, y a menudo supera a la destilación off-policy y al aprendizaje por refuerzo estándar. Sin embargo, encontramos que su eficacia depende implícitamente de dos supuestos que con frecuencia se incumplen en la práctica: la alineación a nivel de trayectoria entre el estudiante y el profesor, y la fiabilidad uniforme a nivel de token de las preferencias del profesor. Por lo tanto, proponemos la Destilación On-Policy con Compuerta de Signo (SG-OPD), que utiliza un verificador binario como señal de confianza para el profesor en dos granularidades complementarias: el muestreo escalonado del profesor incorpora trayectorias del profesor respaldadas por el verificador en el arranque en frío, y una compuerta de consistencia de signo extrapola la actualización de destilación en los tokens donde el profesor coincide con la dirección corregida por el verificador y la interpola donde discrepa. Los experimentos en puntos de referencia de razonamiento matemático a nivel de competencia muestran que SG-OPD supera consistentemente a la OPD estándar, con ganancias promedio de 1,98 y 7,50 a nivel de muestra y de pregunta, respectivamente.

English

On-policy distillation (OPD) trains a student on its own trajectories with dense per-token supervision from a stronger teacher, and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its effectiveness implicitly relies on two assumptions that frequently break in practice: trajectory-level alignment between the student and the teacher, and uniform token-level reliability of the teacher's preferences. We therefore propose Sign-Gated On-Policy Distillation (SG-OPD), which uses a binary verifier as a trust signal for the teacher at two complementary granularities: phased teacher sampling mixes in verifier-endorsed teacher rollouts at cold-start, and a sign-consistency gate extrapolates the distillation update on tokens where the teacher agrees with the verifier-correct direction and interpolates it where it disagrees. Experiments on competition-level mathematical reasoning benchmarks show that SG-OPD consistently outperforms standard OPD, with average gains of 1.98 and 7.50 at the per-sample and per-question levels, respectively.