すべての不一致が学習可能とは限らない:オン方策蒸留におけるトークン教示可能性
Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation
May 26, 2026
著者: Yuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang
cs.AI
要旨
オン・ポリシー蒸留(OPD)は、生徒モデル自身のロールアウト上で、トークンレベルの教師信号を用いて生徒を訓練する手法である。近年の選択的OPD手法では、高エントロピーまたは高不一致のトークンを優先することにより、OPD信号の非一様性を活用している。我々はこの原理を再考し、「実際に学習可能なトークンレベルの教師信号とは何か」という問いを立てる。固定コンテキスト診断(同一コンテキストにおける教師-生徒間KLダイバージェンスの低減量を測定する手法)を用いて、生のKL不一致は学習価値の粗い代理指標に過ぎないことを示す。それは、教師が生徒の上位k候補に修正的な確率質量を割り当てる「学習可能な不一致」と、教師が確率質量の大部分を生徒の現在のサポートから外れた場所に置く「非互換な不一致」を混同している。我々はこの局所的な互換性を「トークンの教示可能性」として定式化し、それが生のKLのみよりも固定コンテキストでの改善度をよく予測することを示す。この知見に基づき、我々は報酬モデルや検証器を用いずに、高い教示可能性を持つ位置にOPD損失を適用する軽量なトークン位置選択手法「教示可能性を考慮したOPD(TA-OPD)」を提案する。Qwen2.5およびQwen 3の教師-生徒設定において、TA-OPDは全トークンOPDを、わずか5%の保持トークンでしばしば上回り、エントロピーおよびダイバージェンスに基づくベースラインよりも改善を示す。我々の結果は、選択的OPDを単なる顕著なトークンの選択ではなく、学習可能な教師信号の選択として捉え直すものである。
English
On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.