Nem Toda Discordância É Aprendível: Ensinabilidade de Tokens na Destilação On-Policy

Resumo

A destilação on-policy (OPD) treina um estudante em suas próprias rolagens com supervisão do professor em nível de token. Métodos recentes de OPD seletiva exploram a não uniformidade dos sinais de OPD priorizando tokens de alta entropia ou alto desacordo. Revisitamos esse princípio e perguntamos: quais sinais do professor em nível de token são realmente aprendíveis? Usando um diagnóstico de contexto fixo que mede a redução KL professor-aluno no mesmo contexto, mostramos que o desacordo KL bruto é uma proxy grosseira para o valor de aprendizado. Ele confunde desacordo aprendível, onde o professor atribui massa corretiva aos candidatos top-K do estudante, com desacordo incompatível, onde o professor coloca massa principalmente fora do suporte atual do estudante. Formalizamos essa compatibilidade local como ensinabilidade do token e mostramos que ela prediz melhor a melhoria em contexto fixo do que o KL bruto isoladamente. Motivados por essa descoberta, propomos OPD Consciente de Ensinabilidade (TA-OPD), um método leve de seleção de posições de token que aplica a perda OPD em posições de alta ensinabilidade, sem modelos de recompensa ou verificadores. Em configurações professor-aluno com Qwen2.5 e Qwen 3, a TA-OPD frequentemente supera a OPD com tokens completos utilizando apenas 5% dos tokens retidos e melhora em relação às baselines baseadas em entropia e divergência. Nossos resultados reformulam a OPD seletiva como a seleção de sinais aprendíveis do professor, em vez de meramente tokens salientes.

English

On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.