Los modelos de lenguaje de gran escala son excesivamente confiados en sus propias respuestas.

Resumen

Estudios previos han demostrado que los modelos de lenguaje grandes (LLMs) ajustados por instrucciones están peor calibrados que sus versiones preentrenadas base. Sin embargo, se sabe poco sobre el efecto que la plantilla de chat, frecuentemente utilizada, tiene en la calibración de los LLMs conversacionales. En este trabajo, investigamos los mecanismos que impulsan esta descalibración desacoplando los efectos del algoritmo de post-entrenamiento y el formato de chat. Encontramos que, aunque el ajuste por instrucciones perjudica fundamentalmente la calibración, la plantilla de chat agrava el problema mediante un "sesgo de propiedad": los modelos son significativamente más confiados en sus propias respuestas que en respuestas idénticas proporcionadas por un usuario. Experimentos exhaustivos con seis LLMs modernos de pesos abiertos, tres puntos de referencia y tres métodos de obtención de confianza muestran que los modelos asignan hasta un 26% más de confianza a sus propias respuestas. Aprovechando esta observación, proponemos una estrategia simple en tiempo de inferencia: enmarcar la respuesta del modelo como entrada del usuario durante la obtención de confianza. Este enfoque reduce significativamente el exceso de confianza y mejora la calibración hasta en un 26% sin necesidad de reentrenamiento, estrechando la brecha entre los modelos base y los ajustados por instrucciones.

English

Prior work has shown that instruction-tuned large language models (LLMs) are less well calibrated than their base pre-trained counterparts. However, little is known about the frequently used chat template's effect on the calibration of conversational LLMs. In this work, we investigate the mechanisms driving this miscalibration by decoupling the effects of the post-training algorithm and the chat format. We find that, while instruction tuning fundamentally harms calibration, the chat template aggravates the issue through an "ownership bias" -- models are significantly more confident in their own answers than in identical answers provided by a user. Extensive experiments across six recent open-weight LLMs, three benchmarks, and three confidence elicitation methods show that models assign up to 26% higher confidence to their own responses. Leveraging this insight, we propose a simple inference-time strategy: framing the model's answer as user input during confidence elicitation. This approach significantly reduces overconfidence and improves calibration by up to 26% without the need for retraining, narrowing the gap between base and instruction-tuned models.