ChatPaper.aiChatPaper

Оценка достоверности ответов больших языковых моделей в многотурных взаимодействиях

Confidence Estimation for LLMs in Multi-turn Interactions

January 5, 2026
Авторы: Caiqi Zhang, Ruihan Yang, Xiaochen Zhu, Chengzu Li, Tiancheng Hu, Yijiang River Dong, Deqing Yang, Nigel Collier
cs.AI

Аннотация

Хотя оценка достоверности является перспективным направлением для снижения галлюцинаций в больших языковых моделях (LLM), текущие исследования в основном сосредоточены на однораундовых сценариях. Динамика уверенности модели в многотурных диалогах, где контекст накапливается, а неоднозначность постепенно разрешается, остаётся в значительной степени неисследованной. Надёжная оценка достоверности в многотурных сценариях критически важна для многих прикладных задач, таких как автономные агенты и системы с участием человека. Данная работа представляет первое систематическое исследование оценки достоверности в многотурных взаимодействиях, устанавливая формальную схему оценки, основанную на двух ключевых требованиях: калибровке на каждом шаге и монотонности уверенности по мере поступления дополнительной информации. Для этого мы вводим новые метрики, включая нормированную по длине ожидаемую ошибку калибровки (InfoECE), и новую парадигму «Загадчик-Отгадчик» для генерации контролируемых наборов данных для оценки. Наши эксперименты показывают, что широко используемые методы оценки достоверности плохо справляются с калибровкой и монотонностью в многотурных диалогах. Мы предлагаем P(Sufficient) — зонд на основе логитов, который демонстрирует сравнительно лучшую производительность, хотя задача ещё далека от решения. Наша работа закладывает методологическую основу для разработки более надёжных и доверенных диалоговых агентов.
English
While confidence estimation is a promising direction for mitigating hallucinations in Large Language Models (LLMs), current research dominantly focuses on single-turn settings. The dynamics of model confidence in multi-turn conversations, where context accumulates and ambiguity is progressively resolved, remain largely unexplored. Reliable confidence estimation in multi-turn settings is critical for many downstream applications, such as autonomous agents and human-in-the-loop systems. This work presents the first systematic study of confidence estimation in multi-turn interactions, establishing a formal evaluation framework grounded in two key desiderata: per-turn calibration and monotonicity of confidence as more information becomes available. To facilitate this, we introduce novel metrics, including a length-normalized Expected Calibration Error (InfoECE), and a new "Hinter-Guesser" paradigm for generating controlled evaluation datasets. Our experiments reveal that widely-used confidence techniques struggle with calibration and monotonicity in multi-turn dialogues. We propose P(Sufficient), a logit-based probe that achieves comparatively better performance, although the task remains far from solved. Our work provides a foundational methodology for developing more reliable and trustworthy conversational agents.
PDF61January 7, 2026