TIPP: Bedeutung von Tokens bei On-Policy-Distillation
TIP: Token Importance in On-Policy Distillation
April 15, 2026
Autoren: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
cs.AI
Zusammenfassung
On-Policy Knowledge Distillation (OPD) trainiert einen Student anhand seiner eigenen Rollouts unter Token-level-Aufsicht eines Teachers. Nicht alle Token-Positionen sind gleichermaßen bedeutsam, doch bestehende Ansichten zur Token-Wichtigkeit sind unvollständig. Wir stellen eine direkte Frage: Welche Token liefern das nützlichste Lernsignal in OPD? Unsere Antwort lautet, dass informative Token aus zwei Bereichen stammen: Positionen mit hoher Student-Entropie und Positionen mit niedriger Student-Entropie plus hoher Teacher–Student-Divergenz, wo der Student übermäßig selbstsicher und falsch liegt.
Empirisch erweist sich die Student-Entropie als starke Näherung erster Ordnung: Das Beibehalten von 50 % der Token mittels entropiebasierter Stichprobenziehung erreicht oder übertrifft das Training mit allen Token, während der Spitzenspeicherbedarf um bis zu 47 % reduziert wird. Doch Entropie allein übersieht einen zweiten wichtigen Bereich. Wenn wir Token mit niedriger Entropie und hoher Divergenz isolieren, erreicht das Training mit weniger als 10 % aller Token nahezu die Voll-Token-Baselines. Dies zeigt, dass übermäßig selbstsichere Token ein dichtes korrektives Signal tragen, obwohl sie für rein entropiebasierte Regeln nahezu unsichtbar sind.
Wir systematisieren diese Erkenntnisse mit TIP (Token Importance in On-Policy Distillation), einer Zwei-Achsen-Taxonomie über Student-Entropie und Teacher–Student-Divergenz, und liefern eine theoretische Erklärung, warum Entropie nützlich, aber strukturell unvollständig ist. Diese Sichtweise motiviert typenbewusste Token-Auswahlregeln, die Unsicherheit und Disagreement kombinieren. Wir validieren dieses Bild an drei Teacher–Student-Paaren, die Qwen3, Llama und Qwen2.5 umfassen, auf MATH-500 und AIME 2024/2025 sowie auf dem DeepPlanning-Benchmark für langfristiges agentenbasiertes Planen, wo ein Q3-exklusives Training mit <20 % der Token die Voll-Token-OPD übertrifft. Unsere Experimente sind durch Erweiterung des OPD-Repositorys https://github.com/HJSang/OPSD_OnPolicyDistillation implementiert, das speichereffiziente Distillation größerer Modelle unter begrenzten GPU-Budgets unterstützt.
English
On-policy knowledge distillation (OPD) trains a student on its own rollouts under token-level supervision from a teacher. Not all token positions matter equally, but existing views of token importance are incomplete. We ask a direct question: which tokens carry the most useful learning signal in OPD? Our answer is that informative tokens come from two regions: positions with high student entropy, and positions with low student entropy plus high teacher--student divergence, where the student is overconfident and wrong.
Empirically, student entropy is a strong first-order proxy: retaining 50% of tokens with entropy-based sampling matches or exceeds all-token training while reducing peak memory by up to 47%. But entropy alone misses a second important region. When we isolate low-entropy, high-divergence tokens, training on fewer than 10% of all tokens nearly matches full-token baselines, showing that overconfident tokens carry dense corrective signal despite being nearly invisible to entropy-only rules.
We organize these findings with TIP (Token Importance in on-Policy distillation), a two-axis taxonomy over student entropy and teacher--student divergence, and give a theoretical explanation for why entropy is useful yet structurally incomplete. This view motivates type-aware token selection rules that combine uncertainty and disagreement. We validate this picture across three teacher--student pairs spanning Qwen3, Llama, and Qwen2.5 on MATH-500 and AIME 2024/2025, and on the DeepPlanning benchmark for long-horizon agentic planning, where Q3-only training on <20% of tokens surpasses full-token OPD. Our experiments are implemented by extending the OPD repository https://github.com/HJSang/OPSD_OnPolicyDistillation, which supports memory-efficient distillation of larger models under limited GPU budgets.