ChatPaper.aiChatPaper

オンポリシー蒸留の多様な側面:落とし穴、メカニズム、および修正策

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

May 11, 2026
著者: Siqi Zhu, Xuyan Ye, Hongyu Lu, Weiye Shi, Ge Liu
cs.AI

要旨

オンポリシー蒸留(OPD)およびオンポリシー自己蒸留(OPSD)は、大規模言語モデルに対する事後学習手法として有望視されており、モデル自身のポリシーからサンプリングされた軌跡に対して、密なトークンレベルの監督を提供する。しかし、その有効性に関する既存の結果は依然としてまちまちであり、OP(S)Dはシステムプロンプトや知識の内在化において有望性を示している一方、最近の研究では不安定性や性能低下も報告されている。本研究では、OPDとOPSDがいつ機能し、いつ失敗し、その理由について包括的な実証研究を提示する。我々は、数学的推論におけるOPDは教師モデルの選択と損失関数の定式化に非常に敏感である一方、OPSDはテスト時においてインスタンス固有の特権情報(PI)が欠如しているため、我々のテスト設定では失敗することを明らかにした。対照的に、PIがシステムプロンプトやアライメント選好などの共有された潜在ルールを表す場合、OPSDは有効である。我々は3つの失敗メカニズムを特定する:(1) 生徒が生成したプレフィックスに条件付けすることによる教師と生徒間の分布の不一致、(2) バイアスのかかったTopK逆KL勾配による最適化の不安定性、(3) OPSDに固有の制限で、生徒がPI条件付き教師を集約したPIフリーポリシーを学習するが、PIがインスタンス固有の場合には不十分である。さらに、ストップグラディエントTopK目的関数、RLVR適応教師、およびSFT安定化生徒がこれらの失敗を軽減することを示す。
English
On-policy distillation (OPD) and on-policy self-distillation (OPSD) have emerged as promising post-training methods for large language models, offering dense token-level supervision on trajectories sampled from the model's own policy. However, existing results on their effectiveness remain mixed: while OP(S)D has shown promise in system prompt and knowledge internalization, recent studies also report instability and degradation. In this work, we present a comprehensive empirical study of when OPD and OPSD work, when they fail, and why. We find that OPD on mathematical reasoning is highly sensitive to teacher choice and loss formulation, whereas OPSD fails in our tested settings due to test-time absence of instance-specific privileged information (PI). In contrast, OPSD is effective when PI represents a shared latent rule, such as a system prompt or alignment preference. We identify three failure mechanisms: (1) distribution mismatch between teacher and student caused by conditioning on student-generated prefixes, (2) optimization instability from biased TopK reverse-KL gradients, and (3) an OPSD-specific limitation where the student learns a PI-free policy that aggregates PI-conditioned teachers, which is insufficient when PI is instance-specific. We further show that stop-gradient TopK objectives, RLVR-adapted teachers, and SFT-stabilized students mitigate these failures.
PDF41May 14, 2026