신뢰의 이분법: 도구 사용 에이전트의 오교정 현상 분석 및 완화
The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents
January 12, 2026
저자: Weihao Xuan, Qingcheng Zeng, Heli Qi, Yunze Xiao, Junjue Wang, Naoto Yokoya
cs.AI
초록
대규모 언어 모델(LLM) 기반 자율 에이전트가 다중 터닝 작업을 처리하기 위해 빠르게 발전하고 있지만, 신뢰성을 보장하는 것은 여전히 중요한 과제로 남아 있습니다. 이러한 신뢰성의 근간을 이루는 것은 캘리브레이션(calibration)으로, 이는 에이전트의 실제 성능을 신뢰할 수 있게 반영하는 자신감을 표현하는 능력을 의미합니다. 정적 모델에 대한 캘리브레이션은 잘 정립되어 있지만, 도구 통합 에이전트 워크플로우에서의 동적 특성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 도구 사용 에이전트의 언어화된 캘리브레이션을 체계적으로 조사하여 도구 유형에 의해 발생하는 근본적인 자신감 이분법을 밝혀냅니다. 구체적으로, 파일럿 연구를 통해 증거 도구(예: 웹 검색)는 검색된 정보의 본질적 노이즈로 인해 체계적인 심각한 과신을 유발하는 반면, 검증 도구(예: 코드 인터프리터)는 결정론적 피드백을 통해 추론을 근거 삼고 캘리브레이션 오류를 완화할 수 있음을 확인했습니다. 다양한 도구 유형에 걸쳐 캘리브레이션을 강건하게 개선하기 위해, 우리는 보상 설계에 대한 포괄적 벤치마크를 바탕으로 작업 정확도와 캘리브레이션을 공동 최적화하는 강화 학습(RL) 미세 조정 프레임워크를 제안합니다. 훈련된 에이전트가 우수한 캘리브레이션을 달성할 뿐만 아니라, 로컬 훈련 환경에서 노이즈가 많은 웹 설정으로, 그리고 수학적 추론과 같은 별개의 도메인으로 강건하게 일반화됨을 입증합니다. 우리의 결과는 도구 사용 에이전트를 위한 도메인 특화 캘리브레이션 전략의 필요성을 강조합니다. 더 넓게 보면, 본 연구는 위험이 높은 실제 배포 환경에서 불확실성을 신뢰성 있게 전달할 수 있는 자의식적 에이전트 구축의 기초를 마련합니다.
English
Autonomous agents based on large language models (LLMs) are rapidly evolving to handle multi-turn tasks, but ensuring their trustworthiness remains a critical challenge. A fundamental pillar of this trustworthiness is calibration, which refers to an agent's ability to express confidence that reliably reflects its actual performance. While calibration is well-established for static models, its dynamics in tool-integrated agentic workflows remain underexplored. In this work, we systematically investigate verbalized calibration in tool-use agents, revealing a fundamental confidence dichotomy driven by tool type. Specifically, our pilot study identifies that evidence tools (e.g., web search) systematically induce severe overconfidence due to inherent noise in retrieved information, while verification tools (e.g., code interpreters) can ground reasoning through deterministic feedback and mitigate miscalibration. To robustly improve calibration across tool types, we propose a reinforcement learning (RL) fine-tuning framework that jointly optimizes task accuracy and calibration, supported by a holistic benchmark of reward designs. We demonstrate that our trained agents not only achieve superior calibration but also exhibit robust generalization from local training environments to noisy web settings and to distinct domains such as mathematical reasoning. Our results highlight the necessity of domain-specific calibration strategies for tool-use agents. More broadly, this work establishes a foundation for building self-aware agents that can reliably communicate uncertainty in high-stakes, real-world deployments.