A Ilusão da Certeza: Desacoplando Capacidade e Calibração na Destilação On-Policy

Resumo

A destilação sob a mesma política (OPD) é um paradigma cada vez mais importante para o pós-treinamento de modelos de linguagem. No entanto, identificamos uma Lei de Escala de Descalibração generalizada: embora a OPD melhore efetivamente a precisão da tarefa, ela sistematicamente prende os modelos em uma severa superconfiança. Rastreamos essa falha até um descompasso de informação: a supervisão do professor é formada sob um contexto privilegiado disponível durante o treinamento, enquanto o modelo implantado deve relatar confiança usando apenas informações disponíveis no momento da implantação. Formalizamos essa perspectiva teoricamente, mostrando que o sucesso condicionado ao professor geralmente não é um alvo válido para a confiança no momento da implantação e que um contexto privilegiado útil induz um colapso da entropia e um viés de otimismo sistemático. Para resolver isso, propomos uma estrutura OPD consciente da calibração, a CaOPD, que estima a confiança empírica a partir de rollouts do modelo, substitui a confiança autorrelatada por este alvo fundamentado no aluno e destila a resposta revisada por meio do mesmo pipeline de autodestilação. Experimentos em vários modelos e domínios mostram que a CaOPD alcança uma calibração Pareto-ótima, mantendo uma capacidade competitiva e generalizando de forma robusta sob condições fora da distribuição e de aprendizado contínuo. Nossas descobertas destacam que a destilação de capacidade não implica confiança calibrada e que a confiança deve ser tratada como um objetivo essencial no pós-treinamento. Código: https://github.com/SalesforceAIResearch/CaOPD

English

On-policy distillation (OPD) is an increasingly important paradigm for post-training language models. However, we identify a pervasive Scaling Law of Miscalibration: while OPD effectively improves task accuracy, it systematically traps models in severe overconfidence. We trace this failure to an information mismatch: teacher supervision is formed under privileged context available during training, whereas the deployed model must report confidence using only deployment-time information. We formalize this perspective theoretically, showing that teacher-conditioned success is generally not a valid target for deployment-time confidence and that helpful privileged context induces entropy collapse and a systematic optimism bias. To address this, we propose a calibration-aware OPD framework, CaOPD, that estimates empirical confidence from model rollouts, replaces self-reported confidence with this student-grounded target, and distills the revised response through the same self-distillation pipeline. Experiments across various models and domains show that CaOPD achieves Pareto-optimal calibration while maintaining competitive capability, generalizing robustly under out-of-distribution and continual learning. Our findings highlight that capability distillation does not imply calibrated confidence, and that confidence should be treated as an essential objective in post-training. Code: https://github.com/SalesforceAIResearch/CaOPD

A Ilusão da Certeza: Desacoplando Capacidade e Calibração na Destilação On-Policy

The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Resumo

Support