ChatPaper.aiChatPaper

확실성의 환상: 온-폴리시 디스틸레이션에서 능력과 보정의 분리

The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

April 18, 2026
저자: Jiaxin Zhang, Xiangyu Peng, Qinglin Chen, Qinyuan Ye, Caiming Xiong, Chien-Sheng Wu
cs.AI

초록

온-폴리시 지식 증류(OPD)는 훈련 후 언어 모델을 위한 점차 중요해지는 패러다임입니다. 그러나 우리는 보편적인 "확장적 오교정 법칙"을 확인했습니다: OPD는 과제 정확도를 효과적으로 향상시키지만, 모델을 심각한 과적신 상태로 체계적으로 빠뜨립니다. 우리는 이러한 실패를 정보 불일치로 추적합니다: 교사 감독은 훈련 중 이용 가능한 특권 정보를 바탕으로 형성되는 반면, 배포된 모델은 배포 시점 정보만을 사용하여 신뢰도를 보고해야 합니다. 우리는 이 관점을 이론적으로 정형화하여, 교사 조건부 성공이 일반적으로 배포 시점 신뢰도에 대한 유효한 목표가 아니며, 유용한 특권 정보는 엔트로피 붕괴와 체계적인 낙관적 편향을 유발함을 보여줍니다. 이를 해결하기 위해 우리는 캘리브레이션 인식 OPD 프레임워크인 CaOPD를 제안합니다. CaOPD는 모델 롤아웃에서 경험적 신뢰도를 추정하고, 자체 보고된 신뢰도를 이 학생 기반 목표로 대체하며, 수정된 응답을 동일한 자기 증류 파이프라인을 통해 증류합니다. 다양한 모델과 도메인에서의 실험 결과, CaOPD가 경쟁력 있는 성능을 유지하면서 파레토 최적 캘리브레이션을 달성하고, 분포 외 및 지속 학습 상황에서 강건하게 일반화함을 보여줍니다. 우리의 연구 결과는 능력 증류가 캘리브레이션된 신뢰도를 의미하지 않으며, 신뢰도가 훈련 후 과정에서 필수적인 목표로 취급되어야 함을 강조합니다. 코드: https://github.com/SalesforceAIResearch/CaOPD
English
On-policy distillation (OPD) is an increasingly important paradigm for post-training language models. However, we identify a pervasive Scaling Law of Miscalibration: while OPD effectively improves task accuracy, it systematically traps models in severe overconfidence. We trace this failure to an information mismatch: teacher supervision is formed under privileged context available during training, whereas the deployed model must report confidence using only deployment-time information. We formalize this perspective theoretically, showing that teacher-conditioned success is generally not a valid target for deployment-time confidence and that helpful privileged context induces entropy collapse and a systematic optimism bias. To address this, we propose a calibration-aware OPD framework, CaOPD, that estimates empirical confidence from model rollouts, replaces self-reported confidence with this student-grounded target, and distills the revised response through the same self-distillation pipeline. Experiments across various models and domains show that CaOPD achieves Pareto-optimal calibration while maintaining competitive capability, generalizing robustly under out-of-distribution and continual learning. Our findings highlight that capability distillation does not imply calibrated confidence, and that confidence should be treated as an essential objective in post-training. Code: https://github.com/SalesforceAIResearch/CaOPD
PDF102April 22, 2026