Tout désaccord n'est pas apprenable : Enseignabilité des tokens dans la distillation on-policy

Résumé

La distillation on-policy (OPD) entraîne un étudiant sur ses propres déroulements avec une supervision du professeur au niveau des tokens. Les méthodes OPD sélectives récentes exploitent la non-uniformité des signaux OPD en priorisant les tokens à haute entropie ou à fort désaccord. Nous revisitons ce principe et demandons : quels signaux du professeur au niveau des tokens sont réellement apprenables ? En utilisant un diagnostic à contexte fixe qui mesure la réduction de la divergence KL entre professeur et étudiant dans le même contexte, nous montrons que le désaccord KL brut est un indicateur grossier de la valeur d'apprentissage. Il confond le désaccord apprenable, où le professeur attribue une masse corrective aux candidats top-K de l'étudiant, avec un désaccord incompatible, où le professeur place la masse principalement en dehors du support actuel de l'étudiant. Nous formalisons cette compatibilité locale comme l’apprenabilité des tokens et montrons qu’elle prédit mieux l’amélioration dans un contexte fixe que le seul KL brut. Motivés par cette constatation, nous proposons OPD sensible à l’apprenabilité (TA-OPD), une méthode légère de sélection de positions de tokens qui applique la perte OPD aux positions à haute apprenabilité sans modèles de récompense ni vérificateurs. Dans les configurations professeur-étudiant Qwen2.5 et Qwen 3, TA-OPD dépasse souvent l’OPD sur tous les tokens avec seulement 5% des tokens conservés et s’améliore par rapport aux références basées sur l’entropie et la divergence. Nos résultats recadrent l’OPD sélective comme une sélection de signaux apprenables du professeur plutôt que simplement des tokens saillants.

English

On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.