ChatPaper.aiChatPaper

밀집 지도, 희소 업데이트: 온-정책 증류의 희소성과 기하학

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

June 11, 2026
저자: Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye
cs.AI

초록

온-정책 증류(OPD)은 최근 두 가지 바람직한 요소, 즉 온-정책 학생 궤적과 조밀한 교사 지도를 결합함으로써 주목할 만한 사후 학습 방법이 되었으나, 이러한 혼합이 모델의 매개변수를 어떻게 변화시키는지는 여전히 불명확하다. 여러 언어 및 시각-언어 모델 쌍과 사용 사례에 걸친 분석을 통해, 우리는 두 가지 주요 결과를 도출했다. 희소성 측면에서, OPD 스타일의 업데이트는 크기가 작고 좌표적으로 희소하다. 이들은 계층 전반에 분포하며 일반적으로 FFN(피드포워드 네트워크)에 집중된다. 이러한 희소 구조는 운영상 유용하다: 발견된 하위 네트워크만 학습해도 전체 OPD와 거의 동일한 성능을 회복한다. 그러나 희소성을 유도하는 SGD 최적화기는 옵티마이저 절제 실험에서 AdamW보다 성능이 낮았는데, 이는 조밀한 교사 지도가 AdamW의 적응적 스케일링이 여전히 유용한 이질적인 좌표별 기울기 스케일을 보존하기 때문일 가능성이 크다. 기하학 측면에서, 업데이트는 수치적으로 완전한 계수(rank)를 가지지만 스펙트럼적으로 집중되어 있다; 이들은 대부분 원본 가중치의 주요 특이 부분 공간에서 벗어나 있으며, 원본 가중치가 0에 가까운 좌표에 불균형적으로 적용된다. 이러한 발견은 조밀한 교사 지도가 OPD를 일반적인 조밀한 매개변수 재작성으로 전환하지 않는다는 것을 시사한다; 대신 OPD는 온-정책 사후 학습의 중요한 기하학적 특성을 유지한다.
English
On-policy distillation (OPD) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting; instead, OPD retains important geometric signatures of on-policy post-training.