SCOPE: デュアルパス適応重み付けによる信号校正オン方策蒸留強化
SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
April 12, 2026
著者: Binbin Zheng, Xing Ma, Yiheng Liang, Jingqing Ruan, Xiaoliang Fu, Kepeng Lin, Benchang Zhu, Ke Zeng, Xunliang Cai
cs.AI
要旨
大規模言語モデルのアライメント推論において、オン方策強化学習は主流のパラダイムとなっているが、その疎な結果レベルの報酬はトークンレベルの信用割り当てを極めて困難にしている。On-Policy Distillation (OPD) は教師モデルからの密なトークンレベルのKL監督を導入することでこの問題を緩和するが、一般的にこの監督を全てのロールアウトに均一に適用するため、信号品質の根本的な差異を無視している。本論文では、Signal-Calibrated On-Policy Distillation Enhancement (SCOPE) を提案する。これは、オン方策ロールアウトを正答性に基づいて2つの相補的な監督パスに振り分けるデュアルパス適応型訓練フレームワークである。不正解の軌跡に対しては、SCOPEは教師モデルのパープレキシティで重み付けされたKL蒸留を実行し、教師が真の修正能力を示すインスタンスを優先するとともに、信頼性の低い指導を軽視する。正解の軌跡に対しては、学生モデルのパープレキシティで重み付けされた最尤推定を適用し、強化を既に習得したサンプルに過度に適用するのではなく、能力境界にある低信頼度サンプルに集中させる。両パスはグループレベル正規化を採用し、プロンプト間の本質的な難易度差異を考慮して重み分布を適応的に較正する。6つの推論ベンチマークにおける大規模な実験により、SCOPEが競合するベースラインと比較して、Avg@32で平均11.42%、Pass@32で7.30%の相対的改善を達成し、その一貫した有効性を示した。
English
On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.