El Decatlón de Herramientas: Evaluación Comparativa de Agentes Lingüísticos para la Ejecución de Tareas Diversas, Realistas y de Largo Horizonte
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
October 29, 2025
Autores: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI
Resumen
Los agentes lingüísticos del mundo real deben manejar flujos de trabajo complejos y multi-etapa a través de diversas aplicaciones. Por ejemplo, un agente puede gestionar correos electrónicos coordinándose con calendarios y sistemas de archivos, o monitorear una base de datos de producción para detectar anomalías y generar informes siguiendo un manual de operaciones. Sin embargo, los benchmarks existentes para agentes lingüísticos a menudo se centran en dominios estrechos o tareas simplificadas que carecen de la diversidad, el realismo y la complejidad de horizonte largo necesarios para evaluar el rendimiento de los agentes en escenarios reales. Para abordar esta brecha, presentamos el Tool Decathlon (denominado Toolathlon), un benchmark para agentes lingüísticos que ofrece diversas aplicaciones y herramientas, una configuración de entorno realista y una evaluación fiable basada en la ejecución. Toolathlon abarca 32 aplicaciones de software y 604 herramientas, que van desde plataformas cotidianas como Google Calendar y Notion hasta otras profesionales como WooCommerce, Kubernetes y BigQuery. La mayoría de las herramientas se basan en un conjunto de alta calidad de servidores del Model Context Protocol (MCP) que hemos revisado o implementado nosotros mismos. A diferencia de trabajos anteriores, que principalmente aseguran el realismo funcional pero ofrecen una diversidad limitada de estados del entorno, nosotros proporcionamos estados iniciales realistas del entorno a partir de software real, como cursos de Canvas con docenas de estudiantes o hojas de cálculo financieras reales. Este benchmark incluye un total de 108 tareas obtenidas o elaboradas manualmente, que requieren interactuar con múltiples aplicaciones a lo largo de aproximadamente 20 turnos en promedio para completarse. Cada tarea es estrictamente verificable mediante scripts de evaluación dedicados. La evaluación exhaustiva de modelos state-of-the-art (SOTA) resalta sus deficiencias significativas: el modelo con mejor rendimiento, Claude-4.5-Sonnet, alcanza solo una tasa de éxito del 38.6% con 20.2 turnos de llamadas a herramientas en promedio, mientras que el modelo de pesos abiertos más destacado, DeepSeek-V3.2-Exp, alcanza un 20.1%. Esperamos que Toolathlon impulse el desarrollo de agentes lingüísticos más capaces para la ejecución de tareas realistas de horizonte largo.
English
Real-world language agents must handle complex, multi-step workflows across
diverse Apps. For instance, an agent may manage emails by coordinating with
calendars and file systems, or monitor a production database to detect
anomalies and generate reports following an operating manual. However, existing
language agent benchmarks often focus on narrow domains or simplified tasks
that lack the diversity, realism, and long-horizon complexity required to
evaluate agents' real-world performance. To address this gap, we introduce the
Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering
diverse Apps and tools, realistic environment setup, and reliable
execution-based evaluation. Toolathlon spans 32 software applications and 604
tools, ranging from everyday platforms such as Google Calendar and Notion to
professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools
are based on a high-quality set of Model Context Protocol (MCP) servers that we
may have revised or implemented ourselves. Unlike prior works, which primarily
ensure functional realism but offer limited environment state diversity, we
provide realistic initial environment states from real software, such as Canvas
courses with dozens of students or real financial spreadsheets. This benchmark
includes 108 manually sourced or crafted tasks in total, requiring interacting
with multiple Apps over around 20 turns on average to complete. Each task is
strictly verifiable through dedicated evaluation scripts. Comprehensive
evaluation of SOTA models highlights their significant shortcomings: the
best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate
with 20.2 tool calling turns on average, while the top open-weights model
DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development
of more capable language agents for real-world, long-horizon task execution.