Estimation de la confiance des LLM dans les interactions multi-tours
Confidence Estimation for LLMs in Multi-turn Interactions
January 5, 2026
papers.authors: Caiqi Zhang, Ruihan Yang, Xiaochen Zhu, Chengzu Li, Tiancheng Hu, Yijiang River Dong, Deqing Yang, Nigel Collier
cs.AI
papers.abstract
Bien que l'estimation de la confiance soit une voie prometteuse pour atténuer les hallucinations dans les grands modèles de langage (LLM), les recherches actuelles se concentrent principalement sur des contextes à tour unique. La dynamique de la confiance du modèle dans les conversations multi-tours, où le contexte s'accumule et l'ambiguïté est progressivement résolue, reste largement inexplorée. Une estimation fiable de la confiance dans les contextes multi-tours est cruciale pour de nombreuses applications en aval, telles que les agents autonomes et les systèmes à boucle humaine. Ce travail présente la première étude systématique de l'estimation de la confiance dans les interactions multi-tours, en établissant un cadre d'évaluation formel fondé sur deux desiderata clés : l'étalonnage par tour et la monotonie de la confiance à mesure que davantage d'informations deviennent disponibles. Pour faciliter cela, nous introduisons de nouvelles métriques, incluant une Erreur d'Étalonnage Attendue normalisée par la longueur (InfoECE), et un nouveau paradigme "Devinette Guidée" pour générer des ensembles de données d'évaluation contrôlés. Nos expériences révèlent que les techniques de confiance couramment utilisées peinent à assurer l'étalonnage et la monotonie dans les dialogues multi-tours. Nous proposons P(Suffisant), une sonde basée sur les logits qui obtient des performances relativement meilleures, bien que le problème soit loin d'être résolu. Notre travail fournit une méthodologie fondamentale pour développer des agents conversationnels plus fiables et dignes de confiance.
English
While confidence estimation is a promising direction for mitigating hallucinations in Large Language Models (LLMs), current research dominantly focuses on single-turn settings. The dynamics of model confidence in multi-turn conversations, where context accumulates and ambiguity is progressively resolved, remain largely unexplored. Reliable confidence estimation in multi-turn settings is critical for many downstream applications, such as autonomous agents and human-in-the-loop systems. This work presents the first systematic study of confidence estimation in multi-turn interactions, establishing a formal evaluation framework grounded in two key desiderata: per-turn calibration and monotonicity of confidence as more information becomes available. To facilitate this, we introduce novel metrics, including a length-normalized Expected Calibration Error (InfoECE), and a new "Hinter-Guesser" paradigm for generating controlled evaluation datasets. Our experiments reveal that widely-used confidence techniques struggle with calibration and monotonicity in multi-turn dialogues. We propose P(Sufficient), a logit-based probe that achieves comparatively better performance, although the task remains far from solved. Our work provides a foundational methodology for developing more reliable and trustworthy conversational agents.