Иллюзия определенности: разделение способностей и калибровки при дистилляции на основе текущей политики

Аннотация

Он-политическое дистилляционное обучение (OPD) становится все более важной парадигмой для посттренировочной доработки языковых моделей. Однако мы выявляем повсеместно проявляющийся закон масштабирования некорректной калибровки: хотя OPD эффективно повышает точность решения задач, оно систематически загоняет модели в состояние сильной переобученности. Мы связываем эту неудачу с информационным несоответствием: учительский контроль формируется в условиях привилегированного контекста, доступного во время обучения, тогда как развернутая модель должна оценивать уверенность, используя только информацию, доступную во время эксплуатации. Мы формализуем эту точку зрения теоретически, показывая, что успех, обусловленный учителем, вообще говоря, не является валидной целью для уверенности во время развертывания и что полезный привилегированный контекст вызывает коллапс энтропии и систематическое смещение в сторону оптимизма. Для решения этой проблемы мы предлагаем учитывающий калибровку фреймворк OPD, CaOPD, который оценивает эмпирическую уверенность по результатам прогонов модели, заменяет самооценочную уверенность на эту обоснованную студентом цель и дистиллирует пересмотренный ответ через тот же конвейер самообучения. Эксперименты на различных моделях и в различных областях показывают, что CaOPD достигает Парето-оптимальной калибровки, сохраняя при этом конкурентоспособные способности и устойчиво обобщая в условиях внераспределенных данных и непрерывного обучения. Наши результаты подчеркивают, что дистилляция способностей не подразумевает калиброванную уверенность, и что уверенность следует рассматривать как важнейшую цель посттренировочной доработки. Код: https://github.com/SalesforceAIResearch/CaOPD

English

On-policy distillation (OPD) is an increasingly important paradigm for post-training language models. However, we identify a pervasive Scaling Law of Miscalibration: while OPD effectively improves task accuracy, it systematically traps models in severe overconfidence. We trace this failure to an information mismatch: teacher supervision is formed under privileged context available during training, whereas the deployed model must report confidence using only deployment-time information. We formalize this perspective theoretically, showing that teacher-conditioned success is generally not a valid target for deployment-time confidence and that helpful privileged context induces entropy collapse and a systematic optimism bias. To address this, we propose a calibration-aware OPD framework, CaOPD, that estimates empirical confidence from model rollouts, replaces self-reported confidence with this student-grounded target, and distills the revised response through the same self-distillation pipeline. Experiments across various models and domains show that CaOPD achieves Pareto-optimal calibration while maintaining competitive capability, generalizing robustly under out-of-distribution and continual learning. Our findings highlight that capability distillation does not imply calibrated confidence, and that confidence should be treated as an essential objective in post-training. Code: https://github.com/SalesforceAIResearch/CaOPD

Иллюзия определенности: разделение способностей и калибровки при дистилляции на основе текущей политики

The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Аннотация

Support