CONSEJO: Importancia de los Tokens en la Destilación en Política Actual
TIP: Token Importance in On-Policy Distillation
April 15, 2026
Autores: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
cs.AI
Resumen
La destilación de conocimiento en política (OPD) entrena a un estudiante en sus propias ejecuciones bajo supervisión a nivel de token por parte de un profesor. No todas las posiciones de token importan por igual, pero las visiones existentes sobre la importancia de los tokens son incompletas. Planteamos una pregunta directa: ¿qué tokens contienen la señal de aprendizaje más útil en OPD? Nuestra respuesta es que los tokens informativos provienen de dos regiones: posiciones con alta entropía del estudiante, y posiciones con baja entropía del estudiante más alta divergencia profesor-estudiante, donde el estudiante es sobreconfiado y está equivocado.
Empíricamente, la entropía del estudiante es un fuerte proxy de primer orden: retener el 50% de los tokens con un muestreo basado en entropía iguala o supera al entrenamiento con todos los tokens, a la vez que reduce la memoria máxima hasta en un 47%. Pero la entropía por sí sola pasa por alto una segunda región importante. Cuando aislamos los tokens de baja entropía y alta divergencia, el entrenamiento con menos del 10% de todos los tokens casi iguala los baselines de tokens completos, lo que demuestra que los tokens sobreconfiados contienen una señal correctiva densa a pesar de ser casi invisibles para las reglas basadas únicamente en entropía.
Organizamos estos hallazgos con TIP (Importancia del Token en la destilación en política), una taxonomía de dos ejes sobre la entropía del estudiante y la divergencia profesor-estudiante, y ofrecemos una explicación teórica de por qué la entropía es útil pero estructuralmente incompleta. Esta perspectiva motiva reglas de selección de tokens conscientes del tipo que combinan incertidumbre y desacuerdo. Validamos esta imagen en tres pares profesor-estudiante que abarcan Qwen3, Llama y Qwen2.5 en MATH-500 y AIME 2024/2025, y en el benchmark DeepPlanning para planificación agentiva de largo horizonte, donde el entrenamiento con solo Q3 en <20% de los tokens supera a la OPD con todos los tokens. Nuestros experimentos se implementan extendiendo el repositorio OPD https://github.com/HJSang/OPSD_OnPolicyDistillation, que permite la destilación eficiente en memoria de modelos más grandes con presupuestos limitados de GPU.
English
On-policy knowledge distillation (OPD) trains a student on its own rollouts under token-level supervision from a teacher. Not all token positions matter equally, but existing views of token importance are incomplete. We ask a direct question: which tokens carry the most useful learning signal in OPD? Our answer is that informative tokens come from two regions: positions with high student entropy, and positions with low student entropy plus high teacher--student divergence, where the student is overconfident and wrong.
Empirically, student entropy is a strong first-order proxy: retaining 50% of tokens with entropy-based sampling matches or exceeds all-token training while reducing peak memory by up to 47%. But entropy alone misses a second important region. When we isolate low-entropy, high-divergence tokens, training on fewer than 10% of all tokens nearly matches full-token baselines, showing that overconfident tokens carry dense corrective signal despite being nearly invisible to entropy-only rules.
We organize these findings with TIP (Token Importance in on-Policy distillation), a two-axis taxonomy over student entropy and teacher--student divergence, and give a theoretical explanation for why entropy is useful yet structurally incomplete. This view motivates type-aware token selection rules that combine uncertainty and disagreement. We validate this picture across three teacher--student pairs spanning Qwen3, Llama, and Qwen2.5 on MATH-500 and AIME 2024/2025, and on the DeepPlanning benchmark for long-horizon agentic planning, where Q3-only training on <20% of tokens surpasses full-token OPD. Our experiments are implemented by extending the OPD repository https://github.com/HJSang/OPSD_OnPolicyDistillation, which supports memory-efficient distillation of larger models under limited GPU budgets.