VitaBench: 現実世界のアプリケーションにおける多様なインタラクティブタスクを用いたLLMエージェントのベンチマーキング
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications
September 30, 2025
著者: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao
cs.AI
要旨
LLMベースのエージェントが実生活のシナリオでますます展開される中、既存のベンチマークは、膨大な情報の処理、多様なリソースの活用、動的なユーザーインタラクションの管理といった本質的な複雑さを捉えられていません。このギャップを埋めるため、我々はVitaBenchを紹介します。これは、現実世界の設定に基づいた多様なインタラクティブタスクでエージェントを評価する挑戦的なベンチマークです。フードデリバリー、店内消費、オンライン旅行サービスといった日常的なアプリケーションから着想を得て、VitaBenchは66のツールを備えた、これまでで最も複雑な生活支援シミュレーション環境をエージェントに提供します。ドメイン固有のポリシーを排除するフレームワークを通じて、これらのシナリオとツールの柔軟な組み合わせを可能にし、100のクロスシナリオタスク(主要結果)と300のシングルシナリオタスクを生成します。各タスクは複数の実際のユーザーリクエストから派生し、エージェントに時間的・空間的次元にわたる推論、複雑なツールセットの活用、曖昧な指示の積極的な明確化、マルチターン会話を通じたユーザー意図の変化の追跡を要求します。さらに、ルーブリックベースのスライディングウィンドウ評価器を提案し、複雑な環境と確率的なインタラクションにおける多様な解決経路の堅牢な評価を可能にします。我々の包括的な評価によると、最も先進的なモデルでさえ、クロスシナリオタスクでは30%の成功率に留まり、その他のタスクでは50%未満の成功率です。全体として、VitaBenchは実用的な現実世界のアプリケーションにおけるAIエージェントの開発を進めるための貴重なリソースとなることを信じています。コード、データセット、リーダーボードはhttps://vitabench.github.io/で利用可能です。
English
As LLM-based agents are increasingly deployed in real-life scenarios,
existing benchmarks fail to capture their inherent complexity of handling
extensive information, leveraging diverse resources, and managing dynamic user
interactions. To address this gap, we introduce VitaBench, a challenging
benchmark that evaluates agents on versatile interactive tasks grounded in
real-world settings. Drawing from daily applications in food delivery, in-store
consumption, and online travel services, VitaBench presents agents with the
most complex life-serving simulation environment to date, comprising 66 tools.
Through a framework that eliminates domain-specific policies, we enable
flexible composition of these scenarios and tools, yielding 100 cross-scenario
tasks (main results) and 300 single-scenario tasks. Each task is derived from
multiple real user requests and requires agents to reason across temporal and
spatial dimensions, utilize complex tool sets, proactively clarify ambiguous
instructions, and track shifting user intent throughout multi-turn
conversations. Moreover, we propose a rubric-based sliding window evaluator,
enabling robust assessment of diverse solution pathways in complex environments
and stochastic interactions. Our comprehensive evaluation reveals that even the
most advanced models achieve only 30% success rate on cross-scenario tasks, and
less than 50% success rate on others. Overall, we believe VitaBench will serve
as a valuable resource for advancing the development of AI agents in practical
real-world applications. The code, dataset, and leaderboard are available at
https://vitabench.github.io/