Nicht jede Uneinigkeit ist lernbar: Token-Lehrbarkeit in der On-Policy-Destillation

Zusammenfassung

On-Policy-Destillation (OPD) trainiert einen Schüler auf seinen eigenen Rollouts mit Token-Ebene-Lehrerüberwachung. Neuere selektive OPD-Methoden nutzen die Nicht-Gleichförmigkeit von OPD-Signalen, indem sie Token mit hoher Entropie oder hoher Diskrepanz priorisieren. Wir überdenken dieses Prinzip und fragen: Welche Signale des Lehrers auf Token-Ebene sind tatsächlich lernbar? Mithilfe einer Diagnostik mit festem Kontext, die die Reduktion der Lehrer-Schüler-KL im gleichen Kontext misst, zeigen wir, dass die rohe KL-Diskrepanz ein grober Indikator für den Lernwert ist. Sie vermischt lernbare Diskrepanz, bei der der Lehrer korrigierendes Gewicht auf die Top-K-Kandidaten des Schülers legt, mit inkompatibler Diskrepanz, bei der der Lehrer das Gewicht hauptsächlich außerhalb des aktuellen Trägers des Schülers platziert. Wir formalisieren diese lokale Kompatibilität als Token-Lehrbarkeit und zeigen, dass sie die Verbesserung im festen Kontext besser vorhersagt als die rohe KL allein. Motiviert durch diesen Befund schlagen wir lehrbarkeitsbewusste OPD (TA-OPD) vor, eine leichtgewichtige Methode zur Auswahl von Token-Positionen, die den OPD-Verlust auf Positionen mit hoher Lehrbarkeit anwendet, ohne Belohnungsmodelle oder Verifizierer. In Qwen2.5- und Qwen-3-Lehrer-Schüler-Einstellungen übertrifft TA-OPD häufig die OPD mit vollständigen Token bei nur 5% beibehaltenen Token und verbessert sich gegenüber Entropie- und Divergenz-basierten Basislinien. Unsere Ergebnisse definieren selektive OPD neu als Auswahl lernbarer Lehrersignale anstelle von lediglich salienten Token.

English

On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.