ChatPaper.aiChatPaper

다중 회상 상호작용에서 LLM의 신뢰도 추정

Confidence Estimation for LLMs in Multi-turn Interactions

January 5, 2026
저자: Caiqi Zhang, Ruihan Yang, Xiaochen Zhu, Chengzu Li, Tiancheng Hu, Yijiang River Dong, Deqing Yang, Nigel Collier
cs.AI

초록

신뢰도 추정은 대규모 언어 모델(LLM)의 환각 현상을 완화하기 위한 유망한 방향이지만, 현재 연구는 단일 턴 설정에 주로 집중되고 있습니다. 맥락이 누적되고 모호성이 점차 해소되는 다중 턴 대화에서 모델 신뢰도의 역동성은 대부분 탐구되지 않은 상태입니다. 다중 턴 설정에서의 신뢰할 수 있는 신뢰도 추정은 자율 에이전트 및 인간 참여형 시스템과 같은 많은 다운스트림 애플리케이션에 매우 중요합니다. 본 연구는 다중 턴 상호작용에서의 신뢰도 추정에 대한 첫 체계적인 연구로서, 턴별 보정(per-turn calibration)과 정보가 추가됨에 따른 신뢰도의 단조성(monotonicity)이라는 두 가지 핵심 요구 사항에 기반한 공식 평가 프레임워크를 정립합니다. 이를 위해 길이 정규화 기대 보정 오차(InfoECE)와 같은 새로운 메트릭과 통제된 평가 데이터셋 생성을 위한 새로운 "힌터-게서(Hinter-Guesser)" 패러다임을 도입합니다. 우리의 실험 결과, 널리 사용되는 신뢰도 기법들이 다중 턴 대화에서 보정 및 단조성에 어려움을 겪는 것으로 나타났습니다. 우리는 비교적 더 나은 성능을 달성하는 로짓 기반 프로브인 P(Sufficient)를 제안하지만, 이 과제는 여전히 해결되지 않은 상태입니다. 본 연구는 더 신뢰할 수 있고 신뢰성 있는 대화형 에이전트 개발을 위한 기초 방법론을 제공합니다.
English
While confidence estimation is a promising direction for mitigating hallucinations in Large Language Models (LLMs), current research dominantly focuses on single-turn settings. The dynamics of model confidence in multi-turn conversations, where context accumulates and ambiguity is progressively resolved, remain largely unexplored. Reliable confidence estimation in multi-turn settings is critical for many downstream applications, such as autonomous agents and human-in-the-loop systems. This work presents the first systematic study of confidence estimation in multi-turn interactions, establishing a formal evaluation framework grounded in two key desiderata: per-turn calibration and monotonicity of confidence as more information becomes available. To facilitate this, we introduce novel metrics, including a length-normalized Expected Calibration Error (InfoECE), and a new "Hinter-Guesser" paradigm for generating controlled evaluation datasets. Our experiments reveal that widely-used confidence techniques struggle with calibration and monotonicity in multi-turn dialogues. We propose P(Sufficient), a logit-based probe that achieves comparatively better performance, although the task remains far from solved. Our work provides a foundational methodology for developing more reliable and trustworthy conversational agents.
PDF61January 7, 2026