L'illusione della certezza: disaccoppiamento di capacità e calibrazione nella distillazione on-policy

Abstract

La distillazione on-policy (OPD) è un paradigma sempre più importante per il post-addestramento dei modelli linguistici. Tuttavia, identifichiamo una pervasiva Legge di Scalabilità della Scarsa Calibrazione: sebbene l'OPD migliori efficacemente l'accuratezza sul compito, intrappola sistematicamente i modelli in un grave eccesso di confidenza. Riconduciamo questo fallimento a un disallineamento informativo: la supervisione del modello insegnante si forma basandosi su un contesto privilegiato disponibile durante l'addestramento, mentre il modello messo in produzione deve riportare la propria confidenza utilizzando solo le informazioni disponibili al momento del deployment. Formalizziamo teoricamente questa prospettiva, dimostrando che il successo condizionato all'insegnante generalmente non è un obiettivo valido per la confidenza al deployment e che un contesto privilegiato utile induce un collasso dell'entropia e un bias di ottimismo sistematico. Per affrontare questo problema, proponiamo un framework OPD consapevole della calibrazione, CaOPD, che stima la confidenza empirica dalle esplorazioni del modello, sostituisce la confidenza auto-riportata con questo obiettivo ancorato allo studente e distilla la risposta revisionata attraverso la stessa pipeline di auto-distillazione. Esperimenti condotti su vari modelli e domini mostrano che CaOPD raggiunge una calibrazione Pareto-ottimale mantenendo capacità competitive e generalizzando in modo robusto in scenari out-of-distribution e di apprendimento continuo. I nostri risultati evidenziano che la distillazione delle capacità non implica una confidenza calibrata e che la confidenza dovrebbe essere trattata come un obiettivo essenziale nel post-addestramento. Codice: https://github.com/SalesforceAIResearch/CaOPD

English

On-policy distillation (OPD) is an increasingly important paradigm for post-training language models. However, we identify a pervasive Scaling Law of Miscalibration: while OPD effectively improves task accuracy, it systematically traps models in severe overconfidence. We trace this failure to an information mismatch: teacher supervision is formed under privileged context available during training, whereas the deployed model must report confidence using only deployment-time information. We formalize this perspective theoretically, showing that teacher-conditioned success is generally not a valid target for deployment-time confidence and that helpful privileged context induces entropy collapse and a systematic optimism bias. To address this, we propose a calibration-aware OPD framework, CaOPD, that estimates empirical confidence from model rollouts, replaces self-reported confidence with this student-grounded target, and distills the revised response through the same self-distillation pipeline. Experiments across various models and domains show that CaOPD achieves Pareto-optimal calibration while maintaining competitive capability, generalizing robustly under out-of-distribution and continual learning. Our findings highlight that capability distillation does not imply calibrated confidence, and that confidence should be treated as an essential objective in post-training. Code: https://github.com/SalesforceAIResearch/CaOPD

L'illusione della certezza: disaccoppiamento di capacità e calibrazione nella distillazione on-policy

The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Abstract

Support