VitaBench: Оценка агентов на основе больших языковых моделей с использованием универсальных интерактивных задач в реальных приложениях
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications
September 30, 2025
Авторы: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao
cs.AI
Аннотация
По мере того как агенты на основе больших языковых моделей (LLM) всё чаще внедряются в реальные сценарии, существующие бенчмарки не способны охватить их внутреннюю сложность, связанную с обработкой обширной информации, использованием разнообразных ресурсов и управлением динамическими взаимодействиями с пользователями. Чтобы устранить этот пробел, мы представляем VitaBench — сложный бенчмарк, который оценивает агентов на основе универсальных интерактивных задач, основанных на реальных сценариях. Опираясь на повседневные приложения, такие как доставка еды, потребление в магазинах и онлайн-услуги для путешествий, VitaBench предлагает агентам наиболее сложную на сегодняшний день симуляцию жизненных ситуаций, включающую 66 инструментов. Благодаря фреймворку, который исключает доменно-специфичные политики, мы обеспечиваем гибкую композицию этих сценариев и инструментов, создавая 100 кросс-сценарных задач (основные результаты) и 300 односценарных задач. Каждая задача основана на множестве реальных запросов пользователей и требует от агентов рассуждений в временных и пространственных измерениях, использования сложных наборов инструментов, активного уточнения неоднозначных инструкций и отслеживания изменяющихся намерений пользователя в ходе многоходовых диалогов. Кроме того, мы предлагаем оценочную систему на основе рубрик с использованием скользящего окна, что позволяет проводить устойчивую оценку разнообразных путей решения в сложных средах и стохастических взаимодействиях. Наше всестороннее тестирование показывает, что даже самые передовые модели достигают лишь 30% успеха в кросс-сценарных задачах и менее 50% успеха в остальных. В целом, мы считаем, что VitaBench станет ценным ресурсом для продвижения разработки ИИ-агентов в практических реальных приложениях. Код, набор данных и таблица лидеров доступны по адресу https://vitabench.github.io/.
English
As LLM-based agents are increasingly deployed in real-life scenarios,
existing benchmarks fail to capture their inherent complexity of handling
extensive information, leveraging diverse resources, and managing dynamic user
interactions. To address this gap, we introduce VitaBench, a challenging
benchmark that evaluates agents on versatile interactive tasks grounded in
real-world settings. Drawing from daily applications in food delivery, in-store
consumption, and online travel services, VitaBench presents agents with the
most complex life-serving simulation environment to date, comprising 66 tools.
Through a framework that eliminates domain-specific policies, we enable
flexible composition of these scenarios and tools, yielding 100 cross-scenario
tasks (main results) and 300 single-scenario tasks. Each task is derived from
multiple real user requests and requires agents to reason across temporal and
spatial dimensions, utilize complex tool sets, proactively clarify ambiguous
instructions, and track shifting user intent throughout multi-turn
conversations. Moreover, we propose a rubric-based sliding window evaluator,
enabling robust assessment of diverse solution pathways in complex environments
and stochastic interactions. Our comprehensive evaluation reveals that even the
most advanced models achieve only 30% success rate on cross-scenario tasks, and
less than 50% success rate on others. Overall, we believe VitaBench will serve
as a valuable resource for advancing the development of AI agents in practical
real-world applications. The code, dataset, and leaderboard are available at
https://vitabench.github.io/