온-정책 증류의 기하학에 대하여
On the Geometry of On-Policy Distillation
June 5, 2026
저자: Zhennan Shen, Yanshu Li, Qingyu Yin, Chak Tou Leong, Zhilin Wang, Yanxu Chen, Rongduo Han, Sunbowen Lee, Yi R. Fung
cs.AI
초록
온-정책 증류(On-policy distillation, OPD)는 대규모 언어 모델의 추론 능력을 향상시키기 위해 점점 더 많이 사용되고 있지만, 그 훈련 동역학은 아직 충분히 이해되지 않았다. 우리는 매개변수 공간에서 OPD 업데이트의 궤적을 특성화하고, 이를 지도 미세 조정(SFT) 및 검증 가능한 보상을 사용한 강화 학습(RLVR)과 비교한다. 일련의 매개변수 공간 진단 결과는 OPD를 일관되게 완화된 비주성분 영역(relaxed off-principal regime)에 위치시킨다. 즉, SFT와 비교할 때 OPD의 업데이트는 더 적은 가중치에 영향을 미치고 주성분 방향을 더 강하게 회피하는 반면, RLVR과 비교할 때는 덜 엄격하게 제약된다. 이러한 정적 국소화 외에도 OPD는 부분공간 잠금(subspace locking) 현상을 보인다. 즉, 누적 업데이트가 훈련 초기에 빠르게 좁은 저차원 채널로 진입한다. 훈련 초기에 형성된 업데이트 부분공간으로 훈련을 제한하면 OPD 성능은 유지되지만 SFT 성능은 크게 저하되는데, 이는 잠긴 부분공간이 OPD에 기능적으로 충분함을 시사한다. 제어 실험에서는 업데이트 토큰을 희소화하거나 롤아웃 생성을 오프-정책(off-policy)으로 전환해도 랭크 동역학이 유지되는 반면, OPD 목적 함수를 RLVR과 혼합하면 동역학이 변화하는 것으로 나타났다. 전반적으로 이러한 결과는 OPD가 단순히 SFT와 RLVR 사이의 중간 지점이 아니라 매개변수 공간에서 고유한 업데이트 기하학을 유도함을 시사한다.
English
On-policy distillation (OPD) is increasingly used to improve large language model reasoning, but its training dynamics remain poorly understood. We characterize the trajectory of OPD updates in parameter space and compare it with supervised fine-tuning (SFT) and reinforcement learning with verifiable rewards (RLVR). A suite of parameter-space diagnostics consistently places OPD in a relaxed off-principal regime: compared with SFT, its updates affect fewer weights and avoid principal directions more strongly, while compared with RLVR, they remain less tightly constrained. Beyond this static localization, OPD exhibits subspace locking: its cumulative updates rapidly enter a narrow low-dimensional channel. Constraining training to the update subspace formed early in training preserves OPD performance but substantially degrades SFT, indicating that the locked subspace is functionally sufficient for OPD. Control experiments further show that sparsifying the update tokens and shifting rollout generation off-policy preserve the rank dynamics, whereas mixing the OPD objective with RLVR changes them. Overall, these results suggest that OPD is not merely an intermediate point between SFT and RLVR, but induces its own update geometry in parameter space.