Не всякое расхождение обучаемо: обучаемость токенов в дистилляции на политике
Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation
May 26, 2026
Авторы: Yuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang
cs.AI
Аннотация
Дистилляция по текущей политике (OPD) обучает ученика на его собственных роллах с супервизией учителя на уровне токенов. Недавние методы селективной OPD используют неравномерность сигналов OPD, отдавая приоритет токенам с высокой энтропией или высоким расхождением. Мы пересматриваем этот принцип и задаемся вопросом: какие сигналы учителя на уровне токенов на самом деле обучаемы? Используя диагностику с фиксированным контекстом, измеряющую снижение KL-расхождения между учителем и учеником в том же контексте, мы показываем, что сырое KL-расхождение является грубой аппроксимацией обучающей ценности. Оно смешивает обучаемое расхождение, при котором учитель назначает корректирующую массу на топ-K кандидатов ученика, с несовместимым расхождением, при котором учитель размещает массу в основном вне текущей поддержки ученика. Мы формализуем эту локальную совместимость как обучаемость токена и показываем, что она лучше предсказывает улучшение в фиксированном контексте, чем одно сырое KL-расхождение. Руководствуясь этим результатом, мы предлагаем OPD с учетом обучаемости (TA-OPD) — легковесный метод выбора позиций токенов, который применяет потери OPD к позициям с высокой обучаемостью без моделей вознаграждения или верификаторов. В настройках учитель-ученик для Qwen2.5 и Qwen3 TA-OPD часто превосходит полную OPD при сохранении всего 5% токенов и улучшает результаты по сравнению с базовыми методами, основанными на энтропии и расхождении. Наши результаты переосмысливают селективную OPD как выбор обучаемых сигналов учителя, а не просто значимых токенов.
English
On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.