ChatPaper.aiChatPaper

CAR-bench: Оценка согласованности и осведомленности о пределах агентов на основе больших языковых моделей в условиях реальной неопределенности

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

January 29, 2026
Авторы: Johannes Kirmayr, Lukas Stappen, Elisabeth André
cs.AI

Аннотация

Существующие эталоны для агентов на основе больших языковых моделей (LLM) ориентированы на выполнение задач в идеализированных условиях, но упускают из виду надежность в реальных приложениях, взаимодействующих с пользователем. В таких областях, как автомобильные голосовые ассистенты, пользователи часто формулируют неполные или неоднозначные запросы, создавая внутреннюю неопределенность, которой агенты должны управлять с помощью диалога, использования инструментов и следования политикам. Мы представляем CAR-bench — эталон для оценки согласованности, обработки неопределенности и осознания собственных возможностей в многоходовых агентах LLM, использующих инструменты, в домене автомобильного помощника. Среда включает в себя имитируемого LLM-пользователя, доменные политики и 58 взаимосвязанных инструментов, охватывающих навигацию, продуктивность, зарядку и управление автомобилем. Помимо стандартного выполнения задач, CAR-bench вводит задачи на Галлюцинации, которые проверяют осознание агентом своих ограничений при отсутствии инструментов или информации, и задачи на Дизъюнкцию, требующие разрешения неопределенности через уточнение или внутренний сбор информации. Результаты базовых тестов выявляют значительный разрыв между эпизодическим и стабильным успехом во всех типах задач. Даже передовые LLM с развитыми reasoning-способностями демонстрируют стабильный уровень успешного прохождения менее 50% по задачам на Дизъюнкцию из-за преждевременных действий и часто нарушают политики или фабрикуют информацию для удовлетворения запросов пользователя в задачах на Галлюцинации, что подчеркивает необходимость создания более надежных и самоосознающих агентов LLM для реальных условий.
English
Existing benchmarks for Large Language Model (LLM) agents focus on task completion under idealistic settings but overlook reliability in real-world, user-facing applications. In domains, such as in-car voice assistants, users often issue incomplete or ambiguous requests, creating intrinsic uncertainty that agents must manage through dialogue, tool use, and policy adherence. We introduce CAR-bench, a benchmark for evaluating consistency, uncertainty handling, and capability awareness in multi-turn, tool-using LLM agents in an in-car assistant domain. The environment features an LLM-simulated user, domain policies, and 58 interconnected tools spanning navigation, productivity, charging, and vehicle control. Beyond standard task completion, CAR-bench introduces Hallucination tasks that test agents' limit-awareness under missing tools or information, and Disambiguation tasks that require resolving uncertainty through clarification or internal information gathering. Baseline results reveal large gaps between occasional and consistent success on all task types. Even frontier reasoning LLMs achieve less than 50% consistent pass rate on Disambiguation tasks due to premature actions, and frequently violate policies or fabricate information to satisfy user requests in Hallucination tasks, underscoring the need for more reliable and self-aware LLM agents in real-world settings.
PDF603February 7, 2026