Анти-самодистилляция для рассуждающего RL через точечную взаимную информацию

Аннотация

Он-политическая самодистилляция, при которой студент подтягивается к копии самого себя, обусловленной привилегированным контекстом (например, проверенным решением или обратной связью), представляет собой перспективное направление для улучшения способности к рассуждению без привлечения более сильного внешнего учителя. Однако в области математического рассуждения прирост результатов нестабилен, даже если тот же подход успешно работает в других областях. Анализ попарной взаимной информации связывает неудачу с самим привилегированным контекстом: он завышает уверенность учителя в токенах, уже подразумеваемых решением (структурные связки, верифицируемые утверждения), и занижает её на токенах размышления («Wait», «Let», «Maybe»), которые управляют многошаговым поиском. Мы предлагаем анти-самодистилляцию (AntiSD), которая увеличивает дивергенцию между студентом и учителем, а не уменьшает её: это меняет знак для каждого токена и даёт естественно ограниченное преимущество за один шаг. Энтропийно-управляемый гейт отключает этот член, как только энтропия учителя падает, что завершает прямую замену стандартной самодистилляции. На пяти моделях от 4B до 30B параметров на бенчмарках математического рассуждения AntiSD достигает точности базового уровня GRPO за количество шагов обучения в 2–10 раз меньше и улучшает итоговую точность на величину до 11,5 пунктов. AntiSD открывает путь к масштабируемому самоулучшению, где языковая модель самостоятельно улучшает своё рассуждение за счёт собственного обучающего сигнала.

English

On-policy self-distillation, where a student is pulled toward a copy of itself conditioned on privileged context (e.g., a verified solution or feedback), offers a promising direction for advancing reasoning capability without a stronger external teacher. Yet in math reasoning the gains are inconsistent, even when the same approach succeeds elsewhere. A pointwise mutual information analysis traces the failure to the privileged context itself: it inflates the teacher's confidence on tokens already implied by the solution (structural connectives, verifiable claims) and deflates it on deliberation tokens ("Wait", "Let", "Maybe") that drive multi-step search. We propose Anti-Self-Distillation (AntiSD), which ascends a divergence between student and teacher rather than descending it: this reverses the per-token sign and yields a naturally bounded advantage in one step. An entropy-triggered gate disables the term once the teacher entropy collapses, completing a drop-in replacement for default self-distillation. Across five models from 4B to 30B parameters on math reasoning benchmarks, AntiSD reaches the GRPO baseline's accuracy in 2 to 10x fewer training steps and improves final accuracy by up to 11.5 points. AntiSD opens a path to scalable self-improvement, where a language model bootstraps its own reasoning through its training signal.