VitaBench : Évaluation des agents LLM à travers des tâches interactives polyvalentes dans des applications du monde réel
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications
September 30, 2025
papers.authors: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao
cs.AI
papers.abstract
Alors que les agents basés sur LLM sont de plus en plus déployés dans des scénarios réels, les benchmarks existants ne parviennent pas à capturer leur complexité inhérente à gérer des informations étendues, exploiter des ressources diverses et gérer des interactions utilisateur dynamiques. Pour combler cette lacune, nous présentons VitaBench, un benchmark exigeant qui évalue les agents sur des tâches interactives polyvalentes ancrées dans des contextes réels. S'inspirant d'applications quotidiennes telles que la livraison de repas, la consommation en magasin et les services de voyage en ligne, VitaBench propose aux agents l'environnement de simulation le plus complexe à ce jour, comprenant 66 outils. Grâce à un cadre qui élimine les politiques spécifiques à un domaine, nous permettons une composition flexible de ces scénarios et outils, générant 100 tâches inter-scénarios (résultats principaux) et 300 tâches mono-scénarios. Chaque tâche est dérivée de multiples requêtes utilisateur réelles et exige que les agents raisonnent à travers des dimensions temporelles et spatiales, utilisent des ensembles d'outils complexes, clarifient de manière proactive des instructions ambiguës et suivent les intentions changeantes des utilisateurs tout au long de conversations multi-tours. De plus, nous proposons un évaluateur basé sur une grille à fenêtre glissante, permettant une évaluation robuste des diverses voies de solution dans des environnements complexes et des interactions stochastiques. Notre évaluation approfondie révèle que même les modèles les plus avancés n'atteignent qu'un taux de réussite de 30 % sur les tâches inter-scénarios, et moins de 50 % sur les autres. Globalement, nous croyons que VitaBench servira de ressource précieuse pour faire progresser le développement des agents IA dans des applications pratiques du monde réel. Le code, le jeu de données et le classement sont disponibles sur https://vitabench.github.io/.
English
As LLM-based agents are increasingly deployed in real-life scenarios,
existing benchmarks fail to capture their inherent complexity of handling
extensive information, leveraging diverse resources, and managing dynamic user
interactions. To address this gap, we introduce VitaBench, a challenging
benchmark that evaluates agents on versatile interactive tasks grounded in
real-world settings. Drawing from daily applications in food delivery, in-store
consumption, and online travel services, VitaBench presents agents with the
most complex life-serving simulation environment to date, comprising 66 tools.
Through a framework that eliminates domain-specific policies, we enable
flexible composition of these scenarios and tools, yielding 100 cross-scenario
tasks (main results) and 300 single-scenario tasks. Each task is derived from
multiple real user requests and requires agents to reason across temporal and
spatial dimensions, utilize complex tool sets, proactively clarify ambiguous
instructions, and track shifting user intent throughout multi-turn
conversations. Moreover, we propose a rubric-based sliding window evaluator,
enabling robust assessment of diverse solution pathways in complex environments
and stochastic interactions. Our comprehensive evaluation reveals that even the
most advanced models achieve only 30% success rate on cross-scenario tasks, and
less than 50% success rate on others. Overall, we believe VitaBench will serve
as a valuable resource for advancing the development of AI agents in practical
real-world applications. The code, dataset, and leaderboard are available at
https://vitabench.github.io/