SCOPE: 듀얼 경로 적응 가중치를 통한 신호 보정 온-정책 증류 향상 기법
SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
April 12, 2026
저자: Binbin Zheng, Xing Ma, Yiheng Liang, Jingqing Ruan, Xiaoliang Fu, Kepeng Lin, Benchang Zhu, Ke Zeng, Xunliang Cai
cs.AI
초록
온-폴리시 강화 학습은 대규모 언어 모델의 정렬 추론을 위한 주요 패러다임으로 자리 잡았지만, 희소한 결과 수준의 보상은 토큰 수준의 크레딧 어사인먼트를 극도로 어렵게 만듭니다. 온-폴리시 지식 증류(OPD)는 교사 모델로부터 밀집된 토큰 수준의 KL 슈퍼비전을 도입하여 이를 완화하지만, 일반적으로 이러한 슈퍼비전을 모든 롤아웃에 균일하게 적용하여 신호 품질의 근본적인 차이를 간과합니다. 본 연구에서는 온-폴리시 롤아웃을 정확도에 따라 두 가지 상호 보완적인 슈퍼비전 경로로 라우팅하는 이중 경로 적응형 훈련 프레임워크인 SCOPE(Signal-Calibrated On-Policy Distillation Enhancement)를 제안합니다. 잘못된 트라젝토리의 경우, SCOPE는 교사 모델이 진정한 수정 능력을 보여주는 인스턴스를 우선시하고 신뢰할 수 없는 지도는 가중치를 낮추는 교사 퍼플렉서티 가중 KL 증류를 수행합니다. 올바른 트라젝토리의 경우, 이미 숙달된 샘플을 과도하게 강화하기보다는 능력 경계에 있는 낮은 신뢰도 샘플에 강화를 집중하기 위해 학생 퍼플렉서티 가중 MLE를 적용합니다. 두 경로 모두 그룹 수준 정규화를 사용하여 프롬프트 간 고유한 난이도 차이를 고려하여 가중치 분포를 적응적으로 보정합니다. 6가지 추론 벤치마크에서의 광범위한 실험을 통해 SCOPE가 경쟁력 있는 베이스라인 대비 Avg@32에서 11.42%, Pass@32에서 7.30%의 평균 상대적 개선을 달성하여 일관된 효과성을 입증했습니다.
English
On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.