Menos es más: Parada temprana del rollout para destilación on-policy

Resumen

La destilación *on-policy* ha surgido recientemente como una alternativa prometedora a la imitación estándar a nivel de secuencia, entrenando a un estudiante mediante la puntuación de sus propias trayectorias generadas con un modelo profesor. Sin embargo, observamos un problema de "Decaimiento del Profesor Fuera de Política" (*Off-policy Teacher Decay*) en este paradigma: para los tokens posteriores, dado que el contexto proporcionado por la trayectoria anterior del estudiante es fuera de política para el profesor, la capacidad del profesor para generar una puntuación correctiva disminuye, y puede recaer en un comportamiento de completado de tokens aprendido durante la etapa de preentrenamiento. Verificamos empíricamente este problema y proponemos *Early Stopping Rollout* (ESR) para solucionarlo: una estrategia de destilación simple pero efectiva que simplemente restringe la generación de trayectorias a los primeros tokens de respuesta. Demostramos que ESR supera el rendimiento de la destilación *on-policy* con trayectorias completas en distintos tamaños de modelo, familias, tareas y regímenes de entrenamiento, y exhibe una eficiencia de GPU y estabilidad de entrenamiento mucho mayores, especialmente en escenarios entre familias de modelos. Investigamos además el mecanismo detrás de este sorprendente rendimiento y descubrimos los efectos de "Alineamiento en Cascada" y "Compromiso de Submodo" de ESR, que pueden explicar por qué funciona eficazmente e incluso supera a veces el rendimiento del modelo profesor. Además, mostramos que esta estrategia de selección de tokens basada en la posición no es completamente explicable mediante la divergencia KL y las señales de entropía.

English

On-policy distillation has recently emerged as a promising alternative to standard sequence-level imitation, training a student by scoring its own rollouts with a teacher model. However, we observe ``Off-policy Teacher Decay'' problem in this paradigm: for the later tokens, with student's earlier trajectory as context that is off-policy to the teacher, the teacher's ability to produce a corrective score would decay, and may fall back to token-completion behavior learned in the pre-training stage. We empirically verify this problem, and we propose Early Stopping Rollout (ESR) to fix it: a simple yet effective distillation strategy that simply restricts the rollout generation to the first response tokens. We show that ESR both surpasses the full rollout OPD performance across model size, family, tasks and training regime, and exhibit much higher GPU efficiency and training stability, especially under cross model family scenarios. We further investigate the mechanism behind this surprising performance and discovered "Cascading Alignment" and "Sub-mode Commitment" effect of ESR that may explain why it works effectively and even sometimes exceeding the teacher model performance. Besides, we show that this position-based token selection strategy cannot be fully explainable by KL divergence and entropy signals.