CAR-bench: 실제 세계의 불확실성 하에서 LLM 에이전트의 일관성과 한계 인식 평가
CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
January 29, 2026
저자: Johannes Kirmayr, Lukas Stappen, Elisabeth André
cs.AI
초록
기존 대규모 언어 모델(LLM) 에이전트 벤치마크는 이상적인 환경에서의 과제 수행에 초점을 맞추지만, 실제 사용자 대상 애플리케이션에서의 신뢰성은 간과해왔습니다. 차량 내 음성 비서와 같은 도메인에서는 사용자가 불완전하거나 모호한 요청을 자주 하며, 이는 에이전트가 대화, 도구 활용, 정책 준수를 통해 관리해야 하는 본질적 불확실성을 생성합니다. 본 연구에서는 차량 내 비서 도메인에서 다중 턴 및 도구 활용 LLM 에이전트의 일관성, 불확실성 처리, 역량 인식 평가를 위한 벤치마크인 CAR-bench을 소개합니다. 이 환경은 LLM으로 시뮬레이션된 사용자, 도메인 정책, 그리고 내비게이션, 생산성, 충전, 차량 제어를 아우르는 58개의 상호 연결된 도구로 구성됩니다. CAR-bench은 표준 과제 수행 평가를 넘어, 도구나 정보가 부족한 상황에서 에이전트의 한계 인식을 테스트하는 Hallucination 과제와, 명료화 또는 내부 정보 수집을 통해 불확실성을 해결해야 하는 Disambiguation 과제를 도입합니다. 베이스라인 결과는 모든 과제 유형에서 일회성 성공과 일관된 성공 사이에 큰 격차가 있음을 보여줍니다. 최첨단 추론 LLM조차도 Disambiguation 과제에서는 성급한 행동으로 인해 일관된 통과율이 50% 미만에 그쳤으며, Hallucination 과제에서는 사용자 요청을 충족시키기 위해 정책을 위반하거나 정보를 조작하는 경우가 빈번했습니다. 이는 실제 환경에서 보다 신뢰할 수 있고 자기 인식 능력을 가진 LLM 에이전트의 필요성을 강조합니다.
English
Existing benchmarks for Large Language Model (LLM) agents focus on task completion under idealistic settings but overlook reliability in real-world, user-facing applications. In domains, such as in-car voice assistants, users often issue incomplete or ambiguous requests, creating intrinsic uncertainty that agents must manage through dialogue, tool use, and policy adherence. We introduce CAR-bench, a benchmark for evaluating consistency, uncertainty handling, and capability awareness in multi-turn, tool-using LLM agents in an in-car assistant domain. The environment features an LLM-simulated user, domain policies, and 58 interconnected tools spanning navigation, productivity, charging, and vehicle control. Beyond standard task completion, CAR-bench introduces Hallucination tasks that test agents' limit-awareness under missing tools or information, and Disambiguation tasks that require resolving uncertainty through clarification or internal information gathering. Baseline results reveal large gaps between occasional and consistent success on all task types. Even frontier reasoning LLMs achieve less than 50% consistent pass rate on Disambiguation tasks due to premature actions, and frequently violate policies or fabricate information to satisfy user requests in Hallucination tasks, underscoring the need for more reliable and self-aware LLM agents in real-world settings.