DICA: Importância dos Tokens na Destilação On-Policy

Resumo

A destilação de conhecimento on-policy (OPD) treina um aluno com base em suas próprias execuções (rollouts) sob supervisão a nível de token de um professor. Nem todas as posições dos tokens são igualmente importantes, mas as visões existentes sobre a importância dos tokens são incompletas. Fazemos uma pergunta direta: quais tokens carregam o sinal de aprendizagem mais útil na OPD? Nossa resposta é que os tokens informativos provêm de duas regiões: posições com alta entropia do aluno e posições com baixa entropia do aluno, mas com alta divergência professor-aluno, onde o aluno está excessivamente confiante e errado. Empiricamente, a entropia do aluno é um forte proxy de primeira ordem: reter 50% dos tokens com amostragem baseada em entropia iguala ou supera o treinamento com todos os tokens, enquanto reduz a memória de pico em até 47%. No entanto, a entropia por si só ignora uma segunda região importante. Quando isolamos os tokens de baixa entropia e alta divergência, o treinamento com menos de 10% de todos os tokens praticamente iguala as linhas de base com todos os tokens, mostrando que os tokens de excessiva confiança carregam um sinal corretivo denso, apesar de serem quase invisíveis para regras baseadas apenas em entropia. Organizamos essas descobertas com o TIP (Importância do Token na Destilação On-Policy), uma taxonomia de dois eixos sobre a entropia do aluno e a divergência professor-aluno, e fornecemos uma explicação teórica do porquê a entropia é útil, mas estruturalmente incompleta. Essa visão motiva regras de seleção de tokens conscientes do tipo que combinam incerteza e discordância. Validamos esse panorama em três pares professor-aluno abrangendo Qwen3, Llama e Qwen2.5 no MATH-500 e AIME 2024/2025, e no benchmark DeepPlanning para planejamento agentivo de longo horizonte, onde o treinamento apenas com Q3 em <20% dos tokens supera a OPD com todos os tokens. Nossos experimentos são implementados estendendo o repositório OPD https://github.com/HJSang/OPSD_OnPolicyDistillation, que suporta a destilação com eficiência de memória de modelos maiores sob orçamentos limitados de GPU.

English

On-policy knowledge distillation (OPD) trains a student on its own rollouts under token-level supervision from a teacher. Not all token positions matter equally, but existing views of token importance are incomplete. We ask a direct question: which tokens carry the most useful learning signal in OPD? Our answer is that informative tokens come from two regions: positions with high student entropy, and positions with low student entropy plus high teacher--student divergence, where the student is overconfident and wrong. Empirically, student entropy is a strong first-order proxy: retaining 50% of tokens with entropy-based sampling matches or exceeds all-token training while reducing peak memory by up to 47%. But entropy alone misses a second important region. When we isolate low-entropy, high-divergence tokens, training on fewer than 10% of all tokens nearly matches full-token baselines, showing that overconfident tokens carry dense corrective signal despite being nearly invisible to entropy-only rules. We organize these findings with TIP (Token Importance in on-Policy distillation), a two-axis taxonomy over student entropy and teacher--student divergence, and give a theoretical explanation for why entropy is useful yet structurally incomplete. This view motivates type-aware token selection rules that combine uncertainty and disagreement. We validate this picture across three teacher--student pairs spanning Qwen3, Llama, and Qwen2.5 on MATH-500 and AIME 2024/2025, and on the DeepPlanning benchmark for long-horizon agentic planning, where Q3-only training on <20% of tokens surpasses full-token OPD. Our experiments are implemented by extending the OPD repository https://github.com/HJSang/OPSD_OnPolicyDistillation, which supports memory-efficient distillation of larger models under limited GPU budgets.

DICA: Importância dos Tokens na Destilação On-Policy

TIP: Token Importance in On-Policy Distillation

Resumo

Support