Адаптивное раскрытие учителя для самодистилляции в рассуждениях больших языковых моделей
Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning
May 12, 2026
Авторы: Zihao Han, Tiangang Zhang, Huaibin Wang, Yilun Sun
cs.AI
Аннотация
Самодистилляция на основе текущей политики стала эффективным методом для рассуждений больших языковых моделей, когда привилегированный учитель контролирует собственные развёртки студента, обусловливая их эталонным решением. Однако один из аспектов дизайна, общий почти для всех таких методов, оставался неоспоримым: учитель всегда видит полное эталонное рассуждение. Мы утверждаем, что это умолчание само по себе является частью проблемы, и выявляем несоответствие экспозиции со стороны учителя: когда учитель обусловливает рассуждение, далеко выходящее за пределы текущей компетенции студента, результирующие целевые токены становятся слишком сложными для усвоения. Контролируемый перебор фиксированной экспозиции делает это конкретным на двух фронтах: 1) полная экспозиция не является надёжно наилучшим выбором, и 2) несоответствие студента и учителя монотонно возрастает по мере того, как учитель видит больше привилегированных рассуждений. Это мотивирует рассматривать экспозицию учителя не как фиксированный гиперпараметр, а как обучаемую управляющую переменную во время обучения. Поэтому мы предлагаем адаптивную экспозицию учителя для самодистилляции (ATESD). ATESD моделирует коэффициент раскрытия с помощью легковесного контроллера на основе бета-политики, обусловленного компактной статистикой состояния обучения, и использует одну семплированную экспозицию в течение короткого окна удержания обновлений студента. Чтобы сделать этот контроллер экспозиции обучаемым, мы оптимизируем его с помощью дисконтированного вознаграждения за прогресс обучения, которое оценивает каждое удерживаемое решение по его влиянию на будущее улучшение студента, а не по немедленному изменению функции потерь, решая проблему отложенного назначения кредита, вызванную самодистилляцией на политике. Эксперименты на AIME 24, AIME 25 и HMMT 25 на моделях Qwen3-{1.7B, 4B, 8B} показывают, что ATESD последовательно превосходит конкурентные базовые методы самодистилляции и обучения с подкреплением, улучшая результаты по сравнению с OPSD на +0,95, +2,05 и +2,33 пункта Average@12 соответственно, и утверждает адаптивную экспозицию учителя как эффективное новое направление для самодистилляции рассуждений.
English
On-policy self-distillation has become a strong recipe for LLM reasoning, where a privileged teacher supervises the student's own rollouts while conditioning on the reference solution. A design choice shared by nearly all such methods, however, has gone unquestioned: the teacher always sees the full reference reasoning. We argue that this default itself is part of the problem and identify a teacher-side exposure mismatch: when the teacher conditions on reasoning far beyond the student's current competence, the resulting token targets become too strong to absorb. A controlled fixed-exposure sweep makes this concrete on two fronts: 1) full exposure is not reliably the best choice, and 2) student-teacher mismatch grows monotonically as the teacher sees more privileged reasoning. This motivates treating teacher exposure not as a fixed hyperparameter but as a learnable training-time control variable. We therefore propose Adaptive Teacher Exposure for Self-Distillation (ATESD). ATESD models the reveal ratio with a lightweight Beta-policy controller conditioned on compact training-state statistics, and uses one sampled exposure for a short hold window of student updates. To make this exposure controller learnable, we optimize it with a discounted learning-progress reward that scores each held decision by its effect on the student's future improvement rather than its immediate loss change, addressing the delayed credit assignment induced by on-policy distillation. Experiments on AIME 24, AIME 25, and HMMT 25 across Qwen3-{1.7B, 4B, 8B} show that ATESD consistently outperforms competitive self-distillation and RL baselines, improving over OPSD by +0.95, +2.05, and +2.33 Average@12 points respectively, and establishing adaptive teacher exposure as an effective new axis for reasoning self-distillation.