CAR-bench: Оценка согласованности и осведомленности о пределах агентов на основе больших языковых моделей в условиях реальной неопределенностиCAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
Существующие эталоны для агентов на основе больших языковых моделей (LLM) ориентированы на выполнение задач в идеализированных условиях, но упускают из виду надежность в реальных приложениях, взаимодействующих с пользователем. В таких областях, как автомобильные голосовые ассистенты, пользователи часто формулируют неполные или неоднозначные запросы, создавая внутреннюю неопределенность, которой агенты должны управлять с помощью диалога, использования инструментов и следования политикам. Мы представляем CAR-bench — эталон для оценки согласованности, обработки неопределенности и осознания собственных возможностей в многоходовых агентах LLM, использующих инструменты, в домене автомобильного помощника. Среда включает в себя имитируемого LLM-пользователя, доменные политики и 58 взаимосвязанных инструментов, охватывающих навигацию, продуктивность, зарядку и управление автомобилем. Помимо стандартного выполнения задач, CAR-bench вводит задачи на Галлюцинации, которые проверяют осознание агентом своих ограничений при отсутствии инструментов или информации, и задачи на Дизъюнкцию, требующие разрешения неопределенности через уточнение или внутренний сбор информации. Результаты базовых тестов выявляют значительный разрыв между эпизодическим и стабильным успехом во всех типах задач. Даже передовые LLM с развитыми reasoning-способностями демонстрируют стабильный уровень успешного прохождения менее 50% по задачам на Дизъюнкцию из-за преждевременных действий и часто нарушают политики или фабрикуют информацию для удовлетворения запросов пользователя в задачах на Галлюцинации, что подчеркивает необходимость создания более надежных и самоосознающих агентов LLM для реальных условий.