Le Décathlon des Outils : Évaluation Comparative des Agents Langagiers pour l'Exécution de Tâches Diversifiées, Réalistes et à Long Horizon
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
October 29, 2025
papers.authors: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI
papers.abstract
Les agents linguistiques destinés à des applications réelles doivent gérer des flux de travail complexes et multi-étapes à travers diverses applications. Par exemple, un agent peut gérer des courriels en se coordonnant avec des calendriers et des systèmes de fichiers, ou surveiller une base de données de production pour détecter des anomalies et générer des rapports conformément à un manuel d'exploitation. Cependant, les benchmarks existants pour les agents linguistiques se concentrent souvent sur des domaines restreints ou des tâches simplifiées, qui manquent de la diversité, du réalisme et de la complexité à long terme nécessaires pour évaluer les performances des agents dans des conditions réelles. Pour combler cette lacune, nous présentons le Tool Decathlon (surnommé Toolathlon), un benchmark pour les agents linguistiques offrant une diversité d'applications et d'outils, une configuration d'environnement réaliste et une évaluation fiable basée sur l'exécution.
Toolathlon couvre 32 applications logicielles et 604 outils, allant de plateformes courantes comme Google Calendar et Notion à des outils professionnels tels que WooCommerce, Kubernetes et BigQuery. La plupart des outils sont basés sur un ensemble de haute qualité de serveurs Model Context Protocol (MCP) que nous avons pu réviser ou implémenter nous-mêmes. Contrairement aux travaux antérieurs, qui assurent principalement un réalisme fonctionnel mais offrent une diversité limitée des états de l'environnement, nous fournissons des états initiaux réalistes issus de logiciels réels, tels que des cours Canvas avec des dizaines d'étudiants ou de véritables feuilles de calcul financières. Ce benchmark inclut au total 108 tâches soigneusement sourcées ou conçues, nécessitant une interaction avec plusieurs applications sur environ 20 tours en moyenne pour être accomplies. Chaque tâche est strictement vérifiable via des scripts d'évaluation dédiés.
L'évaluation complète des modèles de pointe (SOTA) met en lumière leurs lacunes significatives : le modèle le plus performant, Claude-4.5-Sonnet, n'atteint qu'un taux de réussite de 38,6 % avec en moyenne 20,2 appels d'outils par tâche, tandis que le meilleur modèle open-weights, DeepSeek-V3.2-Exp, atteint 20,1 %. Nous espérons que Toolathlon stimulera le développement d'agents linguistiques plus performants pour l'exécution de tâches réalistes et à long terme.
English
Real-world language agents must handle complex, multi-step workflows across
diverse Apps. For instance, an agent may manage emails by coordinating with
calendars and file systems, or monitor a production database to detect
anomalies and generate reports following an operating manual. However, existing
language agent benchmarks often focus on narrow domains or simplified tasks
that lack the diversity, realism, and long-horizon complexity required to
evaluate agents' real-world performance. To address this gap, we introduce the
Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering
diverse Apps and tools, realistic environment setup, and reliable
execution-based evaluation. Toolathlon spans 32 software applications and 604
tools, ranging from everyday platforms such as Google Calendar and Notion to
professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools
are based on a high-quality set of Model Context Protocol (MCP) servers that we
may have revised or implemented ourselves. Unlike prior works, which primarily
ensure functional realism but offer limited environment state diversity, we
provide realistic initial environment states from real software, such as Canvas
courses with dozens of students or real financial spreadsheets. This benchmark
includes 108 manually sourced or crafted tasks in total, requiring interacting
with multiple Apps over around 20 turns on average to complete. Each task is
strictly verifiable through dedicated evaluation scripts. Comprehensive
evaluation of SOTA models highlights their significant shortcomings: the
best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate
with 20.2 tool calling turns on average, while the top open-weights model
DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development
of more capable language agents for real-world, long-horizon task execution.