СОВЕТ: Важность токенов при дистилляции в режиме онлайн
TIP: Token Importance in On-Policy Distillation
April 15, 2026
Авторы: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
cs.AI
Аннотация
Обучение с дистилляцией знаний на стратегии (OPD) обучает студента на основе его собственных траекторий с потактовым контролем со стороны учителя. Не все позиции токенов одинаково важны, однако существующие представления о значимости токенов неполны. Мы задаем прямой вопрос: какие токены несут наиболее полезный обучающий сигнал в OPD? Наш ответ заключается в том, что информативные токены происходят из двух областей: позиций с высокой энтропией студента и позиций с низкой энтропией студента, но высокой дивергенцией учитель–студент, где студент излишне уверен и ошибается.
Эмпирически энтропия студента является сильным прокси первого порядка: сохранение 50% токенов с помощью энтропийной выборки соответствует или превосходит обучение на всех токенах, одновременно снижая пиковое потребление памяти до 47%. Однако одной энтропии недостаточно для учета второй важной области. Когда мы изолируем токены с низкой энтропией и высокой дивергенцией, обучение на менее чем 10% всех токенов почти достигает результатов базовых методов на полном наборе токенов, что демонстрирует: переоцененные токены несут плотный корректирующий сигнал, несмотря на то, что они практически невидимы для правил, основанных только на энтропии.
Мы систематизируем эти находки в рамках TIP (Важность токенов при дистилляции на стратегии) — таксономии по двум осям: энтропия студента и дивергенция учитель–студент, а также даем теоретическое объяснение, почему энтропия полезна, но структурно неполна. Этот взгляд мотивирует правила выбора токенов, учитывающие тип и сочетающие неопределенность и расхождение. Мы проверяем эту картину на трех парах учитель–студент, охватывающих Qwen3, Llama и Qwen2.5, на данных MATH-500 и AIME 2024/2025, а также на бенчмарке DeepPlanning для долгосрочного агентского планирования, где обучение только на Q3 с использованием <20% токенов превосходит полную OPD на всех токенах. Наши эксперименты реализованы путем расширения репозитория OPD https://github.com/HJSang/OPSD_OnPolicyDistillation, который поддерживает эффективную по памяти дистилляцию больших моделей при ограниченных GPU-бюджетах.
English
On-policy knowledge distillation (OPD) trains a student on its own rollouts under token-level supervision from a teacher. Not all token positions matter equally, but existing views of token importance are incomplete. We ask a direct question: which tokens carry the most useful learning signal in OPD? Our answer is that informative tokens come from two regions: positions with high student entropy, and positions with low student entropy plus high teacher--student divergence, where the student is overconfident and wrong.
Empirically, student entropy is a strong first-order proxy: retaining 50% of tokens with entropy-based sampling matches or exceeds all-token training while reducing peak memory by up to 47%. But entropy alone misses a second important region. When we isolate low-entropy, high-divergence tokens, training on fewer than 10% of all tokens nearly matches full-token baselines, showing that overconfident tokens carry dense corrective signal despite being nearly invisible to entropy-only rules.
We organize these findings with TIP (Token Importance in on-Policy distillation), a two-axis taxonomy over student entropy and teacher--student divergence, and give a theoretical explanation for why entropy is useful yet structurally incomplete. This view motivates type-aware token selection rules that combine uncertainty and disagreement. We validate this picture across three teacher--student pairs spanning Qwen3, Llama, and Qwen2.5 on MATH-500 and AIME 2024/2025, and on the DeepPlanning benchmark for long-horizon agentic planning, where Q3-only training on <20% of tokens surpasses full-token OPD. Our experiments are implemented by extending the OPD repository https://github.com/HJSang/OPSD_OnPolicyDistillation, which supports memory-efficient distillation of larger models under limited GPU budgets.