Les grands modèles de langage sont trop confiants dans leurs propres réponses.

Résumé

Des travaux antérieurs ont montré que les grands modèles de langage (LLM) affinés par instructions sont moins bien calibrés que leurs homologues pré-entraînés de base. Cependant, on sait peu de choses sur l'effet du modèle de chat fréquemment utilisé sur la calibration des LLM conversationnels. Dans ce travail, nous étudions les mécanismes à l'origine de cette mauvaise calibration en dissociant les effets de l'algorithme de post-entraînement et du format de chat. Nous constatons que, si l'affinage par instructions nuit fondamentalement à la calibration, le modèle de chat aggrave le problème à travers un « biais de propriété » : les modèles sont nettement plus confiants dans leurs propres réponses que dans des réponses identiques fournies par un utilisateur. Des expériences approfondies sur six LLM récents à poids ouverts, trois références et trois méthodes d'élicitation de confiance montrent que les modèles attribuent jusqu'à 26 % de confiance supplémentaire à leurs propres réponses. En exploitant cette observation, nous proposons une stratégie simple au moment de l'inférence : présenter la réponse du modèle comme une entrée utilisateur lors de l'élicitation de confiance. Cette approche réduit significativement l'excès de confiance et améliore la calibration jusqu'à 26 % sans nécessiter de réentraînement, comblant ainsi l'écart entre les modèles de base et les modèles affinés par instructions.

English

Prior work has shown that instruction-tuned large language models (LLMs) are less well calibrated than their base pre-trained counterparts. However, little is known about the frequently used chat template's effect on the calibration of conversational LLMs. In this work, we investigate the mechanisms driving this miscalibration by decoupling the effects of the post-training algorithm and the chat format. We find that, while instruction tuning fundamentally harms calibration, the chat template aggravates the issue through an "ownership bias" -- models are significantly more confident in their own answers than in identical answers provided by a user. Extensive experiments across six recent open-weight LLMs, three benchmarks, and three confidence elicitation methods show that models assign up to 26% higher confidence to their own responses. Leveraging this insight, we propose a simple inference-time strategy: framing the model's answer as user input during confidence elicitation. This approach significantly reduces overconfidence and improves calibration by up to 26% without the need for retraining, narrowing the gap between base and instruction-tuned models.