VitaBench: Avaliação de Agentes de LLM com Tarefas Interativas Versáteis em Aplicações do Mundo Real
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications
September 30, 2025
Autores: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao
cs.AI
Resumo
À medida que os agentes baseados em LLM (Large Language Models) são cada vez mais implantados em cenários da vida real, os benchmarks existentes falham em capturar sua complexidade inerente de lidar com informações extensas, aproveitar recursos diversos e gerenciar interações dinâmicas com os usuários. Para abordar essa lacuna, apresentamos o VitaBench, um benchmark desafiador que avalia agentes em tarefas interativas versáteis, fundamentadas em contextos do mundo real. Inspirado por aplicações cotidianas como entrega de comida, consumo em lojas e serviços de viagens online, o VitaBench oferece aos agentes o ambiente de simulação mais complexo até hoje, composto por 66 ferramentas. Por meio de um framework que elimina políticas específicas de domínio, permitimos a composição flexível desses cenários e ferramentas, resultando em 100 tarefas de cenários cruzados (resultados principais) e 300 tarefas de cenário único. Cada tarefa é derivada de múltiplas solicitações reais de usuários e exige que os agentes raciocinem em dimensões temporais e espaciais, utilizem conjuntos complexos de ferramentas, esclareçam proativamente instruções ambíguas e acompanhem a intenção mutável do usuário ao longo de conversas com múltiplas interações. Além disso, propomos um avaliador baseado em rubricas com janela deslizante, permitindo uma avaliação robusta de diversas vias de solução em ambientes complexos e interações estocásticas. Nossa avaliação abrangente revela que mesmo os modelos mais avançados alcançam apenas 30% de taxa de sucesso em tarefas de cenários cruzados e menos de 50% em outras tarefas. No geral, acreditamos que o VitaBench servirá como um recurso valioso para avançar o desenvolvimento de agentes de IA em aplicações práticas do mundo real. O código, o conjunto de dados e o quadro de líderes estão disponíveis em https://vitabench.github.io/.
English
As LLM-based agents are increasingly deployed in real-life scenarios,
existing benchmarks fail to capture their inherent complexity of handling
extensive information, leveraging diverse resources, and managing dynamic user
interactions. To address this gap, we introduce VitaBench, a challenging
benchmark that evaluates agents on versatile interactive tasks grounded in
real-world settings. Drawing from daily applications in food delivery, in-store
consumption, and online travel services, VitaBench presents agents with the
most complex life-serving simulation environment to date, comprising 66 tools.
Through a framework that eliminates domain-specific policies, we enable
flexible composition of these scenarios and tools, yielding 100 cross-scenario
tasks (main results) and 300 single-scenario tasks. Each task is derived from
multiple real user requests and requires agents to reason across temporal and
spatial dimensions, utilize complex tool sets, proactively clarify ambiguous
instructions, and track shifting user intent throughout multi-turn
conversations. Moreover, we propose a rubric-based sliding window evaluator,
enabling robust assessment of diverse solution pathways in complex environments
and stochastic interactions. Our comprehensive evaluation reveals that even the
most advanced models achieve only 30% success rate on cross-scenario tasks, and
less than 50% success rate on others. Overall, we believe VitaBench will serve
as a valuable resource for advancing the development of AI agents in practical
real-world applications. The code, dataset, and leaderboard are available at
https://vitabench.github.io/