VitaBench: Het benchmarken van LLM-agents met veelzijdige interactieve taken in real-world toepassingen
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications
September 30, 2025
Auteurs: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao
cs.AI
Samenvatting
Naarmate LLM-gebaseerde agenten steeds vaker worden ingezet in realistische scenario's, slagen bestaande benchmarks er niet in om hun inherente complexiteit te vatten bij het verwerken van uitgebreide informatie, het benutten van diverse bronnen en het beheren van dynamische gebruikersinteracties. Om dit gat te dichten, introduceren we VitaBench, een uitdagende benchmark die agenten evalueert op veelzijdige interactieve taken die geworteld zijn in realistische omgevingen. Geïnspireerd door dagelijkse toepassingen zoals maaltijdbezorging, in-store consumptie en online reisdiensten, biedt VitaBench agenten de meest complexe levensondersteunende simulatieomgeving tot nu toe, bestaande uit 66 tools. Via een raamwerk dat domeinspecifieke beleidsregels elimineert, maken we een flexibele samenstelling van deze scenario's en tools mogelijk, wat resulteert in 100 cross-scenario taken (hoofdresultaten) en 300 single-scenario taken. Elke taak is afgeleid van meerdere echte gebruikersverzoeken en vereist dat agenten redeneren over temporele en ruimtelijke dimensies, complexe toolsets gebruiken, proactief onduidelijke instructies verhelderen en verschuivende gebruikersintenties volgen tijdens meerzijdige gesprekken. Bovendien stellen we een rubric-gebaseerde sliding window evaluator voor, die een robuuste beoordeling mogelijk maakt van diverse oplossingspaden in complexe omgevingen en stochastische interacties. Onze uitgebreide evaluatie toont aan dat zelfs de meest geavanceerde modellen slechts een slagingspercentage van 30% behalen op cross-scenario taken, en minder dan 50% op andere taken. Over het algemeen geloven we dat VitaBench een waardevolle bron zal zijn voor het bevorderen van de ontwikkeling van AI-agenten in praktische real-world toepassingen. De code, dataset en leaderboard zijn beschikbaar op https://vitabench.github.io/.
English
As LLM-based agents are increasingly deployed in real-life scenarios,
existing benchmarks fail to capture their inherent complexity of handling
extensive information, leveraging diverse resources, and managing dynamic user
interactions. To address this gap, we introduce VitaBench, a challenging
benchmark that evaluates agents on versatile interactive tasks grounded in
real-world settings. Drawing from daily applications in food delivery, in-store
consumption, and online travel services, VitaBench presents agents with the
most complex life-serving simulation environment to date, comprising 66 tools.
Through a framework that eliminates domain-specific policies, we enable
flexible composition of these scenarios and tools, yielding 100 cross-scenario
tasks (main results) and 300 single-scenario tasks. Each task is derived from
multiple real user requests and requires agents to reason across temporal and
spatial dimensions, utilize complex tool sets, proactively clarify ambiguous
instructions, and track shifting user intent throughout multi-turn
conversations. Moreover, we propose a rubric-based sliding window evaluator,
enabling robust assessment of diverse solution pathways in complex environments
and stochastic interactions. Our comprehensive evaluation reveals that even the
most advanced models achieve only 30% success rate on cross-scenario tasks, and
less than 50% success rate on others. Overall, we believe VitaBench will serve
as a valuable resource for advancing the development of AI agents in practical
real-world applications. The code, dataset, and leaderboard are available at
https://vitabench.github.io/