VitaBench: Evaluación de Agentes de Modelos de Lenguaje con Tareas Interactivas Versátiles en Aplicaciones del Mundo Real
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications
September 30, 2025
Autores: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao
cs.AI
Resumen
A medida que los agentes basados en LLM se despliegan cada vez más en escenarios de la vida real, los benchmarks existentes no logran captar su complejidad inherente para manejar información extensa, aprovechar recursos diversos y gestionar interacciones dinámicas con los usuarios. Para abordar esta brecha, presentamos VitaBench, un benchmark desafiante que evalúa a los agentes en tareas interactivas versátiles basadas en entornos del mundo real. Inspirándonos en aplicaciones cotidianas como la entrega de comida, el consumo en tiendas y los servicios de viajes en línea, VitaBench ofrece a los agentes el entorno de simulación más complejo hasta la fecha para atender necesidades vitales, compuesto por 66 herramientas. Mediante un marco que elimina políticas específicas de dominio, permitimos la composición flexible de estos escenarios y herramientas, generando 100 tareas entre escenarios (resultados principales) y 300 tareas dentro de un solo escenario. Cada tarea se deriva de múltiples solicitudes de usuarios reales y requiere que los agentes razonen a través de dimensiones temporales y espaciales, utilicen conjuntos de herramientas complejos, aclaren proactivamente instrucciones ambiguas y rastreen las intenciones cambiantes del usuario a lo largo de conversaciones de múltiples turnos. Además, proponemos un evaluador basado en rúbricas con ventana deslizante, que permite una evaluación robusta de diversas vías de solución en entornos complejos e interacciones estocásticas. Nuestra evaluación integral revela que incluso los modelos más avanzados logran solo un 30% de tasa de éxito en tareas entre escenarios, y menos del 50% en otras. En general, creemos que VitaBench servirá como un recurso valioso para avanzar en el desarrollo de agentes de IA en aplicaciones prácticas del mundo real. El código, el conjunto de datos y el ranking están disponibles en https://vitabench.github.io/.
English
As LLM-based agents are increasingly deployed in real-life scenarios,
existing benchmarks fail to capture their inherent complexity of handling
extensive information, leveraging diverse resources, and managing dynamic user
interactions. To address this gap, we introduce VitaBench, a challenging
benchmark that evaluates agents on versatile interactive tasks grounded in
real-world settings. Drawing from daily applications in food delivery, in-store
consumption, and online travel services, VitaBench presents agents with the
most complex life-serving simulation environment to date, comprising 66 tools.
Through a framework that eliminates domain-specific policies, we enable
flexible composition of these scenarios and tools, yielding 100 cross-scenario
tasks (main results) and 300 single-scenario tasks. Each task is derived from
multiple real user requests and requires agents to reason across temporal and
spatial dimensions, utilize complex tool sets, proactively clarify ambiguous
instructions, and track shifting user intent throughout multi-turn
conversations. Moreover, we propose a rubric-based sliding window evaluator,
enabling robust assessment of diverse solution pathways in complex environments
and stochastic interactions. Our comprehensive evaluation reveals that even the
most advanced models achieve only 30% success rate on cross-scenario tasks, and
less than 50% success rate on others. Overall, we believe VitaBench will serve
as a valuable resource for advancing the development of AI agents in practical
real-world applications. The code, dataset, and leaderboard are available at
https://vitabench.github.io/