Replanteamiento de la Destilación en Política de los Modelos de Lenguaje Grandes: Fenomenología, Mecanismo y Receta

Resumen

La destilación bajo la misma política (OPD) se ha convertido en una técnica fundamental en el post-entrenamiento de modelos de lenguaje grandes, aunque su dinámica de entrenamiento sigue siendo poco comprendida. Este artículo proporciona una investigación sistemática de las dinámicas y mecanismos de la OPD. Primero identificamos que dos condiciones determinan si la OPD tiene éxito o fracasa: (i) el estudiante y el profesor deben compartir patrones de pensamiento compatibles; y (ii) incluso con patrones de pensamiento consistentes y puntuaciones más altas, el profesor debe ofrecer capacidades genuinamente nuevas más allá de lo que el estudiante ha visto durante el entrenamiento. Validamos estos hallazgos mediante destilación inversa de débil a fuerte, mostrando que los profesores de 1.5B y 7B de la misma familia son indistinguibles distribucionalmente desde la perspectiva del estudiante. Al indagar en el mecanismo a nivel de token, demostramos que la OPD exitosa se caracteriza por una alineación progresiva en tokens de alta probabilidad en estados visitados por el estudiante, un pequeño conjunto compartido de tokens que concentra la mayor parte de la masa de probabilidad (97%-99%). Además, proponemos dos estrategias prácticas para recuperar una OPD que falla: inicio en frío fuera de política y selección de prompts alineados con el profesor. Finalmente, mostramos que el aparente almuerzo gratuito de la OPD, con su recompensa densa a nivel de token, tiene un coste, planteando la pregunta de si la OPD puede escalar a destilación de horizonte largo.

English

On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.

Replanteamiento de la Destilación en Política de los Modelos de Lenguaje Grandes: Fenomenología, Mecanismo y Receta

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Resumen

Support