Große Sprachmodelle sind übermäßig selbstsicher in ihren eigenen Antworten.

Zusammenfassung

Frühere Arbeiten haben gezeigt, dass instruktionsabgestimmte große Sprachmodelle (Large Language Models, LLMs) weniger gut kalibriert sind als ihre zugrunde liegenden vortrainierten Pendants. Über den Effekt der häufig verwendeten Chat-Vorlage auf die Kalibrierung von konversationellen LLMs ist jedoch wenig bekannt. In dieser Arbeit untersuchen wir die Mechanismen, die zu dieser Fehlkalibrierung führen, indem wir die Effekte des Nachtrainingsalgorithmus und des Chat-Formats entkoppeln. Wir stellen fest, dass Instruktionsabstimmung zwar grundlegend die Kalibrierung beeinträchtigt, die Chat-Vorlage das Problem jedoch durch einen „Besitzer-Bias“ verschärft – Modelle sind deutlich überzeugter von ihren eigenen Antworten als von identischen Antworten, die von einem Benutzer stammen. Umfangreiche Experimente mit sechs aktuellen Open-Weight-LLMs, drei Benchmark-Datensätzen und drei Methoden zur Ermittlung der Konfidenz zeigen, dass Modelle ihren eigenen Antworten bis zu 26 % höhere Konfidenz zuweisen. Aufbauend auf dieser Erkenntnis schlagen wir eine einfache Inferenzzeit-Strategie vor: die Antwort des Modells während der Konfidenzermittlung als Benutzereingabe zu rahmen. Dieser Ansatz reduziert Überkonfidenz signifikant und verbessert die Kalibrierung um bis zu 26 %, ohne dass ein Nachtraining erforderlich ist, und verringert so die Kluft zwischen Basis- und instruktionsabgestimmten Modellen.

English

Prior work has shown that instruction-tuned large language models (LLMs) are less well calibrated than their base pre-trained counterparts. However, little is known about the frequently used chat template's effect on the calibration of conversational LLMs. In this work, we investigate the mechanisms driving this miscalibration by decoupling the effects of the post-training algorithm and the chat format. We find that, while instruction tuning fundamentally harms calibration, the chat template aggravates the issue through an "ownership bias" -- models are significantly more confident in their own answers than in identical answers provided by a user. Extensive experiments across six recent open-weight LLMs, three benchmarks, and three confidence elicitation methods show that models assign up to 26% higher confidence to their own responses. Leveraging this insight, we propose a simple inference-time strategy: framing the model's answer as user input during confidence elicitation. This approach significantly reduces overconfidence and improves calibration by up to 26% without the need for retraining, narrowing the gap between base and instruction-tuned models.