Многие грани он-политической дистилляции: подводные камни, механизмы и исправления

Аннотация

Дистилляция на текущей политике (On-policy distillation, OPD) и самодистилляция на текущей политике (On-policy self-distillation, OPSD) стали перспективными методами пост-обучения для больших языковых моделей, обеспечивая плотный контроль на уровне токенов на траекториях, сэмплированных из собственной политики модели. Однако существующие результаты об их эффективности остаются неоднозначными: в то время как OP(S)D показал многообещающие результаты в системных подсказках и интернализации знаний, недавние исследования также сообщают о нестабильности и ухудшении качества. В этой работе мы представляем всестороннее эмпирическое исследование того, когда OPD и OPSD работают, когда они терпят неудачу и почему. Мы обнаруживаем, что OPD в области математического рассуждения очень чувствителен к выбору учителя и формулировке функции потерь, тогда как OPSD терпит неудачу в наших тестовых условиях из-за отсутствия во время тестирования специфичной для конкретного экземпляра привилегированной информации (privileged information, PI). Напротив, OPSD эффективен, когда PI представляет собой общее латентное правило, такое как системная подсказка или предпочтение выравнивания. Мы выявляем три механизма сбоя: (1) несоответствие распределений между учителем и учеником, вызванное обусловливанием на сгенерированные учеником префиксы, (2) нестабильность оптимизации из-за смещённых градиентов TopK обратной KL-дивергенции и (3) специфическое ограничение OPSD, при котором ученик изучает политику без PI, агрегирующую обусловленные PI учителя, что недостаточно, когда PI является специфичной для экземпляра. Мы также показываем, что цели stop-gradient TopK, учителя, адаптированные с помощью RLVR, и ученики, стабилизированные SFT, смягчают эти сбои.

English

On-policy distillation (OPD) and on-policy self-distillation (OPSD) have emerged as promising post-training methods for large language models, offering dense token-level supervision on trajectories sampled from the model's own policy. However, existing results on their effectiveness remain mixed: while OP(S)D has shown promise in system prompt and knowledge internalization, recent studies also report instability and degradation. In this work, we present a comprehensive empirical study of when OPD and OPSD work, when they fail, and why. We find that OPD on mathematical reasoning is highly sensitive to teacher choice and loss formulation, whereas OPSD fails in our tested settings due to test-time absence of instance-specific privileged information (PI). In contrast, OPSD is effective when PI represents a shared latent rule, such as a system prompt or alignment preference. We identify three failure mechanisms: (1) distribution mismatch between teacher and student caused by conditioning on student-generated prefixes, (2) optimization instability from biased TopK reverse-KL gradients, and (3) an OPSD-specific limitation where the student learns a PI-free policy that aggregates PI-conditioned teachers, which is insufficient when PI is instance-specific. We further show that stop-gradient TopK objectives, RLVR-adapted teachers, and SFT-stabilized students mitigate these failures.

Многие грани он-политической дистилляции: подводные камни, механизмы и исправления

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

Аннотация

Support