ChatPaper.aiChatPaper

대규모 언어 모델의 온-정책 디스틸레이션 재고찰: 현상론, 메커니즘, 그리고 방법론

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

April 14, 2026
저자: Yaxuan Li, Yuxin Zuo, Bingxiang He, Jinqian Zhang, Chaojun Xiao, Cheng Qian, Tianyu Yu, Huan-ang Gao, Wenkai Yang, Zhiyuan Liu, Ning Ding
cs.AI

초록

온-폴리시 지식 증류(OPD)는 대규모 언어 모델의 사후 훈련에서 핵심 기술로 자리 잡았으나, 그 훈련 동역학은 여전히 제대로 이해되지 않고 있습니다. 본 논문은 OPD의 동역학과 메커니즘에 대한 체계적인 연구를 제공합니다. 우리는 먼저 OPD의 성공과 실패를 결정하는 두 가지 조건을 규명합니다: (i) 학생과 교사 모델이 호환 가능한 사고 패턴을 공유해야 하며; (ii) 일관된 사고 패턴과 더 높은 점수를 갖추었더라도, 교사는 학생이 훈련 중 접했던 것을 넘어서는 진정히 새로운 능력을 제공해야 합니다. 우리는 약한 모델에서 강한 모델로의 역방향 증류 실험을 통해 이러한 발견을 검증하며, 동일 계열의 1.5B와 7B 교사 모델이 학생의 관점에서 분포적으로 구별되지 않음을 보여줍니다. 토큰 수준 메커니즘을 탐구한 결과, 성공적인 OPD는 학생이 방문한 상태에서 높은 확률을 가진 토큰들에 대한 점진적 정렬이 특징이며, 이는 전체 확률 질량의 대부분(97%-99%)을 집중시키는 작은 공유 토큰 집합임을 확인했습니다. 우리는 더 나아가 실패하는 OPD를 회복하기 위한 두 가지 실용적인 전략인 오프-폴리시 콜드 스타트와 교사 정렬 프롬프트 선택을 제안합니다. 마지막으로, OPD가 제공하는 든밀한 토큰 수준 보상이라는 '공짜 점심'에는 대가가 따르며, 이는 OPD가 장기적인 증류 작업으로 확장될 수 있는지에 대한 의문을 제기함을 보여줍니다.
English
On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.
PDF582April 16, 2026