La Ilusión de la Certeza: Desacoplando Capacidad y Calibración en la Destilación en Política Actual

Resumen

La destilación bajo la misma política (OPD, por sus siglas en inglés) es un paradigma cada vez más importante para el post-entrenamiento de modelos de lenguaje. Sin embargo, identificamos una Ley de Escalado de la Descalibración generalizada: si bien la OPD mejora eficazmente la precisión en las tareas, atrapa sistemáticamente a los modelos en una severa sobreconfianza. Rastreamos este fallo hasta un desajuste de información: la supervisión del profesor se forma bajo un contexto privilegiado disponible durante el entrenamiento, mientras que el modelo desplegado debe reportar su confianza utilizando únicamente la información disponible en el momento del despliegue. Formalizamos esta perspectiva teóricamente, demostrando que el éxito condicionado al profesor generalmente no es un objetivo válido para la confianza en el despliegue, y que un contexto privilegiado útil induce un colapso de la entropía y un sesgo de optimismo sistemático. Para abordar esto, proponemos un marco de OPD consciente de la calibración, CaOPD, que estima la confianza empírica a partir de las ejecuciones del modelo, reemplaza la confianza auto-reportada con este objetivo basado en el estudiante, y destila la respuesta revisada a través de la misma canalización de auto-destilación. Los experimentos en varios modelos y dominios muestran que CaOPD logra una calibración Pareto-óptima manteniendo una capacidad competitiva, generalizando de manera robusta bajo condiciones fuera de distribución y aprendizaje continuo. Nuestros hallazgos destacan que la destilación de capacidad no implica una confianza calibrada, y que la confianza debe tratarse como un objetivo esencial en el post-entrenamiento. Código: https://github.com/SalesforceAIResearch/CaOPD

English

On-policy distillation (OPD) is an increasingly important paradigm for post-training language models. However, we identify a pervasive Scaling Law of Miscalibration: while OPD effectively improves task accuracy, it systematically traps models in severe overconfidence. We trace this failure to an information mismatch: teacher supervision is formed under privileged context available during training, whereas the deployed model must report confidence using only deployment-time information. We formalize this perspective theoretically, showing that teacher-conditioned success is generally not a valid target for deployment-time confidence and that helpful privileged context induces entropy collapse and a systematic optimism bias. To address this, we propose a calibration-aware OPD framework, CaOPD, that estimates empirical confidence from model rollouts, replaces self-reported confidence with this student-grounded target, and distills the revised response through the same self-distillation pipeline. Experiments across various models and domains show that CaOPD achieves Pareto-optimal calibration while maintaining competitive capability, generalizing robustly under out-of-distribution and continual learning. Our findings highlight that capability distillation does not imply calibrated confidence, and that confidence should be treated as an essential objective in post-training. Code: https://github.com/SalesforceAIResearch/CaOPD

La Ilusión de la Certeza: Desacoplando Capacidad y Calibración en la Destilación en Política Actual

The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Resumen

Support