Не всякое расхождение обучаемо: обучаемость токенов в дистилляции на политике

Аннотация

Дистилляция по текущей политике (OPD) обучает ученика на его собственных роллах с супервизией учителя на уровне токенов. Недавние методы селективной OPD используют неравномерность сигналов OPD, отдавая приоритет токенам с высокой энтропией или высоким расхождением. Мы пересматриваем этот принцип и задаемся вопросом: какие сигналы учителя на уровне токенов на самом деле обучаемы? Используя диагностику с фиксированным контекстом, измеряющую снижение KL-расхождения между учителем и учеником в том же контексте, мы показываем, что сырое KL-расхождение является грубой аппроксимацией обучающей ценности. Оно смешивает обучаемое расхождение, при котором учитель назначает корректирующую массу на топ-K кандидатов ученика, с несовместимым расхождением, при котором учитель размещает массу в основном вне текущей поддержки ученика. Мы формализуем эту локальную совместимость как обучаемость токена и показываем, что она лучше предсказывает улучшение в фиксированном контексте, чем одно сырое KL-расхождение. Руководствуясь этим результатом, мы предлагаем OPD с учетом обучаемости (TA-OPD) — легковесный метод выбора позиций токенов, который применяет потери OPD к позициям с высокой обучаемостью без моделей вознаграждения или верификаторов. В настройках учитель-ученик для Qwen2.5 и Qwen3 TA-OPD часто превосходит полную OPD при сохранении всего 5% токенов и улучшает результаты по сравнению с базовыми методами, основанными на энтропии и расхождении. Наши результаты переосмысливают селективную OPD как выбор обучаемых сигналов учителя, а не просто значимых токенов.

English

On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.