De Illusie van Zekerheid: Ontkoppeling van Vermogen en Calibratie bij On-Policy Distillatie

Samenvatting

On-policy distillatie (OPD) is een steeds belangrijkere methode voor het na-trainen van taalmodellen. Wij identificeren echter een wijdverbreide schaalwet van miscalibratie: hoewel OPD de taaknauwkeurigheid effectief verbetert, brengt het modellen systematisch in een staat van ernstige overmoed. Wij herleiden dit falen tot een informatie-mismatch: de supervisie van het leraarmodel wordt gevormd onder geprivilegieerde context die tijdens de training beschikbaar is, terwijl het ingezette model zijn betrouwbaarheid moet rapporteren met alleen de informatie die tijdens de inzet beschikbaar is. Wij formaliseren dit perspectief theoretisch door aan te tonen dat op de leraar geconditioneerd succes over het algemeen geen geldig doel is voor betrouwbaarheid tijdens inzet, en dat behulpzame geprivilegieerde context leidt tot entropie-instorting en een systematische optimisme-bias. Om dit aan te pakken, stellen wij een calibratie-bewust OPD-raamwerk voor, CaOPD, dat empirische betrouwbaarheid schat uit modelrollouts, de zelfgerapporteerde betrouwbaarheid vervangt door dit op de leerling gegronde doel, en het herziene antwoord distilleert via dezelfde zelfdistillatie-pijplijn. Experimenten met diverse modellen en domeinen tonen aan dat CaOPD Pareto-optimale calibratie bereikt terwijl het competitieve capaciteiten behoudt, en robuust generaliseert onder out-of-distribution en continu leren. Onze bevindingen benadrukken dat het distilleren van capaciteiten niet impliceert dat de betrouwbaarheid gecalibreerd is, en dat betrouwbaarheid als een essentieel doel moet worden behandeld bij na-training. Code: https://github.com/SalesforceAIResearch/CaOPD

English

On-policy distillation (OPD) is an increasingly important paradigm for post-training language models. However, we identify a pervasive Scaling Law of Miscalibration: while OPD effectively improves task accuracy, it systematically traps models in severe overconfidence. We trace this failure to an information mismatch: teacher supervision is formed under privileged context available during training, whereas the deployed model must report confidence using only deployment-time information. We formalize this perspective theoretically, showing that teacher-conditioned success is generally not a valid target for deployment-time confidence and that helpful privileged context induces entropy collapse and a systematic optimism bias. To address this, we propose a calibration-aware OPD framework, CaOPD, that estimates empirical confidence from model rollouts, replaces self-reported confidence with this student-grounded target, and distills the revised response through the same self-distillation pipeline. Experiments across various models and domains show that CaOPD achieves Pareto-optimal calibration while maintaining competitive capability, generalizing robustly under out-of-distribution and continual learning. Our findings highlight that capability distillation does not imply calibrated confidence, and that confidence should be treated as an essential objective in post-training. Code: https://github.com/SalesforceAIResearch/CaOPD

De Illusie van Zekerheid: Ontkoppeling van Vermogen en Calibratie bij On-Policy Distillatie

The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Samenvatting

Support