ChatPaper.aiChatPaper

TIP: Belang van Tokens bij On-Policy Distillatie

TIP: Token Importance in On-Policy Distillation

April 15, 2026
Auteurs: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
cs.AI

Samenvatting

Bij on-policy knowledge distillation (OPD) wordt een studentmodel getraind op basis van zijn eigen rollouts onder token-level supervisie van een leraarmodel. Niet alle tokenposities zijn even belangrijk, maar bestaande opvattingen over tokenimportantie zijn onvolledig. Wij stellen een directe vraag: welke tokens dragen het meest nuttige leersignaal in OPD? Ons antwoord is dat informatieve tokens uit twee regio's komen: posities met hoge entropie van het studentmodel, en posities met lage entropie van het studentmodel plus hoge divergentie tussen leraar en student, waar de student overmoedig en fout is. Empirisch gezien is studententropie een sterke eerstegraadsbenadering: het behouden van 50% van de tokens op basis van entropiegestuurde sampling evenaart of overtreft training met alle tokens, terwijl het piekgeheugengebruik met tot 47% wordt gereduceerd. Maar entropie alleen mist een tweede belangrijke regio. Wanneer we tokens met lage entropie en hoge divergentie isoleren, benadert training op minder dan 10% van alle tokens de prestaties van de volledige token-baselines, wat aantoont dat overmoedige tokens een dicht correctief signaal dragen ondanks dat ze vrijwel onzichtbaar zijn voor uitsluitend op entropie gebaseerde regels. We ordenen deze bevindingen met TIP (Token Importance in on-Policy distillation), een taxonomie met twee assen voor studententropie en divergentie tussen leraar en student, en geven een theoretische verklaring voor waarom entropie nuttig is maar structureel onvolledig. Dit perspectief motiveert typebewuste tokenselectieregels die onzekerheid en meningsverschil combineren. We valideren dit beeld over drie leraar-studentparen, variërend van Qwen3, Llama en Qwen2.5 op MATH-500 en AIME 2024/2025, en op de DeepPlanning-benchmark voor langetermijn-agentplanning, waar training op uitsluitend Q3-tokens (<20% van alle tokens) de volledige token-OPD overtreft. Onze experimenten zijn geïmplementeerd door uitbreiding van de OPD-repository https://github.com/HJSang/OPSD_OnPolicyDistillation, die geheugenefficiënte distillatie van grotere modellen onder beperkte GPU-budgetten ondersteunt.
English
On-policy knowledge distillation (OPD) trains a student on its own rollouts under token-level supervision from a teacher. Not all token positions matter equally, but existing views of token importance are incomplete. We ask a direct question: which tokens carry the most useful learning signal in OPD? Our answer is that informative tokens come from two regions: positions with high student entropy, and positions with low student entropy plus high teacher--student divergence, where the student is overconfident and wrong. Empirically, student entropy is a strong first-order proxy: retaining 50% of tokens with entropy-based sampling matches or exceeds all-token training while reducing peak memory by up to 47%. But entropy alone misses a second important region. When we isolate low-entropy, high-divergence tokens, training on fewer than 10% of all tokens nearly matches full-token baselines, showing that overconfident tokens carry dense corrective signal despite being nearly invisible to entropy-only rules. We organize these findings with TIP (Token Importance in on-Policy distillation), a two-axis taxonomy over student entropy and teacher--student divergence, and give a theoretical explanation for why entropy is useful yet structurally incomplete. This view motivates type-aware token selection rules that combine uncertainty and disagreement. We validate this picture across three teacher--student pairs spanning Qwen3, Llama, and Qwen2.5 on MATH-500 and AIME 2024/2025, and on the DeepPlanning benchmark for long-horizon agentic planning, where Q3-only training on <20% of tokens surpasses full-token OPD. Our experiments are implemented by extending the OPD repository https://github.com/HJSang/OPSD_OnPolicyDistillation, which supports memory-efficient distillation of larger models under limited GPU budgets.
PDF122April 26, 2026