Grote taalmodellen zijn overmoedig in hun eigen antwoorden

Samenvatting

Eerder onderzoek heeft aangetoond dat op instructie afgestemde grote taalmodellen (LLMs) slechter gekalibreerd zijn dan hun oorspronkelijke voorgangers. Er is echter weinig bekend over het effect van de veelgebruikte chat-template op de kalibratie van conversatie-LLMs. In dit werk onderzoeken we de mechanismen die deze foutkalibratie veroorzaken door de effecten van het post-training algoritme en het chat-formaat te ontkoppelen. We ontdekken dat, hoewel instructie-afstemming de kalibratie fundamenteel schaadt, de chat-template het probleem verergert door een 'eigendomsbias' — modellen zijn significant zelfverzekerder over hun eigen antwoorden dan over identieke antwoorden die door een gebruiker zijn gegeven. Uitgebreide experimenten met zes recente open-weight LLMs, drie benchmarks en drie methoden voor het opwekken van vertrouwen tonen aan dat modellen tot 26% meer vertrouwen toekennen aan hun eigen antwoorden. Gebruikmakend van dit inzicht, stellen we een eenvoudige inferentiestrategie voor: het framen van het antwoord van het model als gebruikersinput tijdens het opwekken van vertrouwen. Deze aanpak vermindert oververtrouwen aanzienlijk en verbetert de kalibratie met tot 26% zonder dat hertraining nodig is, waarmee de kloof tussen basis- en instructie-afgestemde modellen wordt verkleind.

English

Prior work has shown that instruction-tuned large language models (LLMs) are less well calibrated than their base pre-trained counterparts. However, little is known about the frequently used chat template's effect on the calibration of conversational LLMs. In this work, we investigate the mechanisms driving this miscalibration by decoupling the effects of the post-training algorithm and the chat format. We find that, while instruction tuning fundamentally harms calibration, the chat template aggravates the issue through an "ownership bias" -- models are significantly more confident in their own answers than in identical answers provided by a user. Extensive experiments across six recent open-weight LLMs, three benchmarks, and three confidence elicitation methods show that models assign up to 26% higher confidence to their own responses. Leveraging this insight, we propose a simple inference-time strategy: framing the model's answer as user input during confidence elicitation. This approach significantly reduces overconfidence and improves calibration by up to 26% without the need for retraining, narrowing the gap between base and instruction-tuned models.