Zelfvertrouwensschatting voor grote taalmodel(len) in meerzijdige interacties
Confidence Estimation for LLMs in Multi-turn Interactions
January 5, 2026
Auteurs: Caiqi Zhang, Ruihan Yang, Xiaochen Zhu, Chengzu Li, Tiancheng Hu, Yijiang River Dong, Deqing Yang, Nigel Collier
cs.AI
Samenvatting
Hoewel betrouwbaarheidsschatting een veelbelovende richting is om hallucinaties in Large Language Models (LLM's) te verminderen, richt huidig onderzoek zich voornamelijk op single-turn settings. De dynamiek van modelbetrouwbaarheid in meerdaagse gesprekken, waarbij context zich opstapelt en dubbelzinnigheid geleidelijk wordt opgelost, blijft grotendeels onontgonnen. Betrouwbare betrouwbaarheidsschatting in meerdaagse settings is cruciaal voor veel downstream-toepassingen, zoals autonome agents en human-in-the-loop systemen. Dit werk presenteert de eerste systematische studie naar betrouwbaarheidsschatting in meerdaagse interacties, en stelt een formeel evaluatiekader op dat gebaseerd is op twee kernvereisten: calibratie per beurt en de monotoniciteit van de betrouwbaarheid naarmate meer informatie beschikbaar komt. Om dit te faciliteren, introduceren we nieuwe metrieken, waaronder een lengte-genormaliseerde Expected Calibration Error (InfoECE), en een nieuw "Hinter-Guesser"-paradigma voor het genereren van gecontroleerde evaluatiedatasets. Onze experimenten tonen aan dat veelgebruikte betrouwbaarheidstechnieken moeite hebben met calibratie en monotoniciteit in meerdaagse dialogen. Wij stellen P(Sufficient) voor, een op logits gebaseerde probe die relatief betere prestaties bereikt, hoewel de taak verre van opgelost is. Ons werk biedt een fundamentele methodologie voor het ontwikkelen van betrouwbaardere en vertrouwenswaardigere conversationele agents.
English
While confidence estimation is a promising direction for mitigating hallucinations in Large Language Models (LLMs), current research dominantly focuses on single-turn settings. The dynamics of model confidence in multi-turn conversations, where context accumulates and ambiguity is progressively resolved, remain largely unexplored. Reliable confidence estimation in multi-turn settings is critical for many downstream applications, such as autonomous agents and human-in-the-loop systems. This work presents the first systematic study of confidence estimation in multi-turn interactions, establishing a formal evaluation framework grounded in two key desiderata: per-turn calibration and monotonicity of confidence as more information becomes available. To facilitate this, we introduce novel metrics, including a length-normalized Expected Calibration Error (InfoECE), and a new "Hinter-Guesser" paradigm for generating controlled evaluation datasets. Our experiments reveal that widely-used confidence techniques struggle with calibration and monotonicity in multi-turn dialogues. We propose P(Sufficient), a logit-based probe that achieves comparatively better performance, although the task remains far from solved. Our work provides a foundational methodology for developing more reliable and trustworthy conversational agents.