ChatPaper.aiChatPaper

온-정책 증류의 다양한 양상: 함정, 메커니즘, 그리고 수정 방법

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

May 11, 2026
저자: Siqi Zhu, Xuyan Ye, Hongyu Lu, Weiye Shi, Ge Liu
cs.AI

초록

온-정책 증류(OPD)와 온-정책 자기 증류(OPSD)는 대규모 언어 모델을 위한 유망한 사후 훈련 방법으로 등장했으며, 모델 자체 정책에서 샘플링된 궤적에 대해 조밀한 토큰 수준의 지도를 제공한다. 하지만 이들의 효과성에 대한 기존 결과는 여전히 엇갈리고 있다. OP(S)D는 시스템 프롬프트 및 지식 내재화에서 가능성을 보여주었지만, 최근 연구에서는 불안정성과 성능 저하도 보고되고 있다. 본 연구에서는 OPD와 OPSD가 언제 효과적이고 언제 실패하며 그 이유가 무엇인지에 대한 포괄적인 실증 연구를 제시한다. 수학적 추론에 대한 OPD는 교사 모델 선택과 손실 함수 구성에 매우 민감한 반면, OPSD는 테스트 시 인스턴스별 특권 정보(PI)가 부재하기 때문에 본 연구의 테스트 설정에서 실패함을 발견했다. 반대로, PI가 시스템 프롬프트나 정렬 선호도와 같은 공유 잠재 규칙을 나타낼 때 OPSD는 효과적이다. 우리는 세 가지 실패 메커니즘을 식별한다: (1) 학생이 생성한 접두사에 조건화함으로써 발생하는 교사와 학생 간의 분포 불일치, (2) 편향된 TopK 역-KL 그래디언트로 인한 최적화 불안정성, (3) 학생이 PI 조건화된 교사를 집계하는 PI 없는 정책을 학습하지만 PI가 인스턴스별일 때 불충분한 OPSD 특정 한계. 또한 정지-그래디언트 TopK 목적 함수, RLVR 적응 교사, SFT 안정화 학생이 이러한 실패를 완화함을 보여준다.
English
On-policy distillation (OPD) and on-policy self-distillation (OPSD) have emerged as promising post-training methods for large language models, offering dense token-level supervision on trajectories sampled from the model's own policy. However, existing results on their effectiveness remain mixed: while OP(S)D has shown promise in system prompt and knowledge internalization, recent studies also report instability and degradation. In this work, we present a comprehensive empirical study of when OPD and OPSD work, when they fail, and why. We find that OPD on mathematical reasoning is highly sensitive to teacher choice and loss formulation, whereas OPSD fails in our tested settings due to test-time absence of instance-specific privileged information (PI). In contrast, OPSD is effective when PI represents a shared latent rule, such as a system prompt or alignment preference. We identify three failure mechanisms: (1) distribution mismatch between teacher and student caused by conditioning on student-generated prefixes, (2) optimization instability from biased TopK reverse-KL gradients, and (3) an OPSD-specific limitation where the student learns a PI-free policy that aggregates PI-conditioned teachers, which is insufficient when PI is instance-specific. We further show that stop-gradient TopK objectives, RLVR-adapted teachers, and SFT-stabilized students mitigate these failures.
PDF41May 14, 2026