先見を学ぶ:オンポリシー蒸留による効率解放の解明
Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation
May 13, 2026
著者: Yuchen Cai, Ding Cao, Liang Lin, Chunxi Luo, Xin Xu, Kai Yang, Weijie Liu, Saiyong Yang, Tianxiang Zhao, Guangzhong Sun, Guiquan Liu, Junfeng Fang
cs.AI
要旨
オン-ポリシー蒸留(OPD)は、大規模言語モデルに対する効率的な学習後パラダイムとして登場した。しかしながら、既存の研究では、この利点は主により密で安定した教師信号に帰属されており、OPDの効率性の根底にあるパラメータレベルのメカニズムについてはほとんど理解されていない。本研究では、OPDの効率性は一種の「先見性」に由来すると主張する。すなわち、学習の初期段階で最終モデルに向けた安定した更新軌道を確立するのである。この先見性は二つの側面に現れる。第一に、モジュール割り当てレベルでは、OPDは限界効用の低い領域を特定し、推論により重要なモジュールに更新を集中させる。第二に、更新方向レベルでは、OPDはより強い低ランク集中を示し、その支配的部分空間が学習初期から最終的な更新部分空間と密接に一致する。これらの知見に基づき、我々はEffOPDを提案する。これは、外挿ステップサイズを適応的に選択し、現在の更新方向に沿って移動することでOPDを高速化するプラグアンドプレイの高速化手法である。EffOPDは追加の学習可能モジュールや複雑なハイパーパラメータ調整を必要とせず、最終性能を同等に維持しながら平均3倍の学習高速化を達成する。総じて、我々の知見はOPDの効率性を理解するためのパラメータダイナミクスの視点を提供し、大規模言語モデルに対するより効率的な学習後手法を設計するための実践的な洞察を与える。
English
On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, existing studies largely attribute this advantage to denser and more stable supervision, while the parameter-level mechanisms underlying OPD's efficiency remain poorly understood. In this work, we argue that OPD's efficiency stems from a form of ``foresight'': it establishes a stable update trajectory toward the final model early in training. This foresight manifests in two aspects. First, at the Module-Allocation Level, OPD identifies regions with low marginal utility and concentrates updates on modules that are more critical to reasoning. Second, at the Update-Direction Level, OPD exhibits stronger low-rank concentration, with its dominant subspaces aligning closely with the final update subspace early in training. Building on these findings, we propose EffOPD, a plug-and-play acceleration method that speeds up OPD by adaptively selecting an extrapolation step size and moving along the current update direction. EffOPD requires no additional trainable modules or complex hyperparameter tuning, and achieves an average training acceleration of 3times while maintaining comparable final performance. Overall, our findings provide a parameter-dynamics perspective for understanding the efficiency of OPD and offer practical insights for designing more efficient post-training methods for large language models.