L'illusion de la certitude : Découplage de la capacité et de l'étalonnage dans la distillation en politique active

Résumé

La distillation en-ligne (OPD) est un paradigme de plus en plus important pour le post-entraînement des modèles de langage. Cependant, nous identifions une loi d'échelle pervasive de la mauvaise calibration : bien que l'OPD améliore efficacement la précision sur les tâches, elle piège systématiquement les modèles dans un sévère excès de confiance. Nous attribuons cet échec à un déficit informationnel : la supervision de l'enseignant est formée à partir d'un contexte privilégié disponible pendant l'entraînement, tandis que le modèle déployé doit évaluer sa confiance en utilisant uniquement les informations disponibles au moment du déploiement. Nous formalisons théoriquement cette perspective, en montrant que la probabilité de succès conditionnelle à l'enseignant n'est généralement pas une cible valide pour la confiance au déploiement, et qu'un contexte privilégié utile induit un effondrement de l'entropie et un biais d'optimisme systématique. Pour y remédier, nous proposons un cadre OPD sensible à la calibration, CaOPD, qui estime une confiance empirique à partir des déroulements du modèle, remplace la confiance auto-déclarée par cette cible ancrée dans l'étudiant, et distille la réponse révisée via le même pipeline d'auto-distillation. Les expériences menées sur divers modèles et domaines montrent que CaOPD atteint une calibration Pareto-optimale tout en maintenant des capacités compétitives, avec une généralisation robuste dans des scénarios hors-distribution et d'apprentissage continu. Nos résultats soulignent que la distillation des capacités n'implique pas une confiance calibrée, et que la confiance doit être traitée comme un objectif essentiel dans le post-entraînement. Code : https://github.com/SalesforceAIResearch/CaOPD

English

On-policy distillation (OPD) is an increasingly important paradigm for post-training language models. However, we identify a pervasive Scaling Law of Miscalibration: while OPD effectively improves task accuracy, it systematically traps models in severe overconfidence. We trace this failure to an information mismatch: teacher supervision is formed under privileged context available during training, whereas the deployed model must report confidence using only deployment-time information. We formalize this perspective theoretically, showing that teacher-conditioned success is generally not a valid target for deployment-time confidence and that helpful privileged context induces entropy collapse and a systematic optimism bias. To address this, we propose a calibration-aware OPD framework, CaOPD, that estimates empirical confidence from model rollouts, replaces self-reported confidence with this student-grounded target, and distills the revised response through the same self-distillation pipeline. Experiments across various models and domains show that CaOPD achieves Pareto-optimal calibration while maintaining competitive capability, generalizing robustly under out-of-distribution and continual learning. Our findings highlight that capability distillation does not imply calibrated confidence, and that confidence should be treated as an essential objective in post-training. Code: https://github.com/SalesforceAIResearch/CaOPD

L'illusion de la certitude : Découplage de la capacité et de l'étalonnage dans la distillation en politique active

The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Résumé

Support