O Decatlo de Ferramentas: Avaliação de Agentes de Linguagem para Execução de Tarefas Diversificadas, Realistas e de Longo Horizonte
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
October 29, 2025
Autores: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI
Resumo
Os agentes de linguagem do mundo real precisam lidar com fluxos de trabalho complexos e multi-etapas em diversos aplicativos. Por exemplo, um agente pode gerenciar e-mails coordenando-se com calendários e sistemas de arquivos, ou monitorar um banco de dados de produção para detectar anomalias e gerar relatórios seguindo um manual operacional. No entanto, os benchmarks existentes para agentes de linguagem frequentemente focam em domínios restritos ou tarefas simplificadas que carecem da diversidade, realismo e complexidade de longo horizonte necessários para avaliar o desempenho dos agentes em cenários reais. Para preencher esta lacuna, apresentamos o Tool Decathlon (apelidado de Toolathlon), um benchmark para agentes de linguagem que oferece aplicativos e ferramentas diversificados, configuração de ambiente realista e avaliação confiável baseada em execução.
O Toolathlon abrange 32 aplicações de software e 604 ferramentas, variando de plataformas cotidianas como Google Calendar e Notion a outras profissionais como WooCommerce, Kubernetes e BigQuery. A maioria das ferramentas é baseada em um conjunto de alta qualidade de servidores Model Context Protocol (MCP) que podemos ter revisado ou implementado nós mesmos. Diferente de trabalhos anteriores, que garantem principalmente o realismo funcional mas oferecem diversidade limitada de estados do ambiente, fornecemos estados iniciais realistas de softwares reais, como cursos no Canvas com dezenas de alunos ou planilhas financeiras reais.
Este benchmark inclui um total de 108 tarefas manualmente obtidas ou elaboradas, que exigem interação com múltiplos aplicativos ao longo de aproximadamente 20 interações em média para serem concluídas. Cada tarefa é estritamente verificável através de scripts de avaliação dedicados. A avaliação abrangente de modelos state-of-the-art (SOTA) evidencia suas deficiências significativas: o modelo de melhor desempenho, Claude-4.5-Sonnet, atinge apenas uma taxa de sucesso de 38.6% com 20.2 chamadas de ferramentas em média, enquanto o melhor modelo de pesos abertos, DeepSeek-V3.2-Exp, alcança 20.1%. Esperamos que o Toolathlon impulsione o desenvolvimento de agentes de linguagem mais capazes para a execução de tarefas realistas e de longo horizonte.
English
Real-world language agents must handle complex, multi-step workflows across
diverse Apps. For instance, an agent may manage emails by coordinating with
calendars and file systems, or monitor a production database to detect
anomalies and generate reports following an operating manual. However, existing
language agent benchmarks often focus on narrow domains or simplified tasks
that lack the diversity, realism, and long-horizon complexity required to
evaluate agents' real-world performance. To address this gap, we introduce the
Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering
diverse Apps and tools, realistic environment setup, and reliable
execution-based evaluation. Toolathlon spans 32 software applications and 604
tools, ranging from everyday platforms such as Google Calendar and Notion to
professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools
are based on a high-quality set of Model Context Protocol (MCP) servers that we
may have revised or implemented ourselves. Unlike prior works, which primarily
ensure functional realism but offer limited environment state diversity, we
provide realistic initial environment states from real software, such as Canvas
courses with dozens of students or real financial spreadsheets. This benchmark
includes 108 manually sourced or crafted tasks in total, requiring interacting
with multiple Apps over around 20 turns on average to complete. Each task is
strictly verifiable through dedicated evaluation scripts. Comprehensive
evaluation of SOTA models highlights their significant shortcomings: the
best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate
with 20.2 tool calling turns on average, while the top open-weights model
DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development
of more capable language agents for real-world, long-horizon task execution.