VitaBench: Benchmarking von LLM-Agenten mit vielseitigen interaktiven Aufgaben in realen Anwendungen
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications
September 30, 2025
papers.authors: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao
cs.AI
papers.abstract
Da LLM-basierte Agenten zunehmend in realen Szenarien eingesetzt werden, erfassen bestehende Benchmarks nicht deren inhärente Komplexität bei der Bewältigung umfangreicher Informationen, der Nutzung diverser Ressourcen und der Verwaltung dynamischer Benutzerinteraktionen. Um diese Lücke zu schließen, stellen wir VitaBench vor, eine anspruchsvolle Benchmark, die Agenten anhand vielseitiger interaktiver Aufgaben in realen Umgebungen bewertet. Inspiriert von täglichen Anwendungen wie Essenslieferungen, In-Store-Konsum und Online-Reisediensten bietet VitaBench Agenten die bisher komplexeste lebensnahe Simulationsumgebung, bestehend aus 66 Werkzeugen. Durch ein Framework, das domänenspezifische Richtlinien eliminiert, ermöglichen wir die flexible Zusammensetzung dieser Szenarien und Werkzeuge, was zu 100 übergreifenden Szenarioaufgaben (Hauptergebnisse) und 300 Einzelszenarioaufgaben führt. Jede Aufgabe basiert auf mehreren realen Benutzeranfragen und erfordert von den Agenten, über zeitliche und räumliche Dimensionen hinweg zu schlussfolgern, komplexe Werkzeugsätze zu nutzen, aktiv mehrdeutige Anweisungen zu klären und sich verändernde Benutzerabsichten in mehrschrittigen Konversationen zu verfolgen. Darüber hinaus schlagen wir einen rubrikbasierten Gleitfenster-Evaluator vor, der eine robuste Bewertung verschiedener Lösungswege in komplexen Umgebungen und stochastischen Interaktionen ermöglicht. Unsere umfassende Auswertung zeigt, dass selbst die fortschrittlichsten Modelle nur eine Erfolgsquote von 30 % bei übergreifenden Szenarioaufgaben und weniger als 50 % bei anderen erreichen. Insgesamt glauben wir, dass VitaBench eine wertvolle Ressource für die Weiterentwicklung von KI-Agenten in praktischen realen Anwendungen darstellen wird. Der Code, der Datensatz und die Bestenliste sind unter https://vitabench.github.io/ verfügbar.
English
As LLM-based agents are increasingly deployed in real-life scenarios,
existing benchmarks fail to capture their inherent complexity of handling
extensive information, leveraging diverse resources, and managing dynamic user
interactions. To address this gap, we introduce VitaBench, a challenging
benchmark that evaluates agents on versatile interactive tasks grounded in
real-world settings. Drawing from daily applications in food delivery, in-store
consumption, and online travel services, VitaBench presents agents with the
most complex life-serving simulation environment to date, comprising 66 tools.
Through a framework that eliminates domain-specific policies, we enable
flexible composition of these scenarios and tools, yielding 100 cross-scenario
tasks (main results) and 300 single-scenario tasks. Each task is derived from
multiple real user requests and requires agents to reason across temporal and
spatial dimensions, utilize complex tool sets, proactively clarify ambiguous
instructions, and track shifting user intent throughout multi-turn
conversations. Moreover, we propose a rubric-based sliding window evaluator,
enabling robust assessment of diverse solution pathways in complex environments
and stochastic interactions. Our comprehensive evaluation reveals that even the
most advanced models achieve only 30% success rate on cross-scenario tasks, and
less than 50% success rate on others. Overall, we believe VitaBench will serve
as a valuable resource for advancing the development of AI agents in practical
real-world applications. The code, dataset, and leaderboard are available at
https://vitabench.github.io/