Le Décathlon des Outils : Évaluation Comparative des Agents Langagiers pour l'Exécution de Tâches Diversifiées, Réalistes et à Long Horizon

papers.abstract

Les agents linguistiques destinés à des applications réelles doivent gérer des flux de travail complexes et multi-étapes à travers diverses applications. Par exemple, un agent peut gérer des courriels en se coordonnant avec des calendriers et des systèmes de fichiers, ou surveiller une base de données de production pour détecter des anomalies et générer des rapports conformément à un manuel d'exploitation. Cependant, les benchmarks existants pour les agents linguistiques se concentrent souvent sur des domaines restreints ou des tâches simplifiées, qui manquent de la diversité, du réalisme et de la complexité à long terme nécessaires pour évaluer les performances des agents dans des conditions réelles. Pour combler cette lacune, nous présentons le Tool Decathlon (surnommé Toolathlon), un benchmark pour les agents linguistiques offrant une diversité d'applications et d'outils, une configuration d'environnement réaliste et une évaluation fiable basée sur l'exécution. Toolathlon couvre 32 applications logicielles et 604 outils, allant de plateformes courantes comme Google Calendar et Notion à des outils professionnels tels que WooCommerce, Kubernetes et BigQuery. La plupart des outils sont basés sur un ensemble de haute qualité de serveurs Model Context Protocol (MCP) que nous avons pu réviser ou implémenter nous-mêmes. Contrairement aux travaux antérieurs, qui assurent principalement un réalisme fonctionnel mais offrent une diversité limitée des états de l'environnement, nous fournissons des états initiaux réalistes issus de logiciels réels, tels que des cours Canvas avec des dizaines d'étudiants ou de véritables feuilles de calcul financières. Ce benchmark inclut au total 108 tâches soigneusement sourcées ou conçues, nécessitant une interaction avec plusieurs applications sur environ 20 tours en moyenne pour être accomplies. Chaque tâche est strictement vérifiable via des scripts d'évaluation dédiés. L'évaluation complète des modèles de pointe (SOTA) met en lumière leurs lacunes significatives : le modèle le plus performant, Claude-4.5-Sonnet, n'atteint qu'un taux de réussite de 38,6 % avec en moyenne 20,2 appels d'outils par tâche, tandis que le meilleur modèle open-weights, DeepSeek-V3.2-Exp, atteint 20,1 %. Nous espérons que Toolathlon stimulera le développement d'agents linguistiques plus performants pour l'exécution de tâches réalistes et à long terme.

English

Real-world language agents must handle complex, multi-step workflows across diverse Apps. For instance, an agent may manage emails by coordinating with calendars and file systems, or monitor a production database to detect anomalies and generate reports following an operating manual. However, existing language agent benchmarks often focus on narrow domains or simplified tasks that lack the diversity, realism, and long-horizon complexity required to evaluate agents' real-world performance. To address this gap, we introduce the Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering diverse Apps and tools, realistic environment setup, and reliable execution-based evaluation. Toolathlon spans 32 software applications and 604 tools, ranging from everyday platforms such as Google Calendar and Notion to professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools are based on a high-quality set of Model Context Protocol (MCP) servers that we may have revised or implemented ourselves. Unlike prior works, which primarily ensure functional realism but offer limited environment state diversity, we provide realistic initial environment states from real software, such as Canvas courses with dozens of students or real financial spreadsheets. This benchmark includes 108 manually sourced or crafted tasks in total, requiring interacting with multiple Apps over around 20 turns on average to complete. Each task is strictly verifiable through dedicated evaluation scripts. Comprehensive evaluation of SOTA models highlights their significant shortcomings: the best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate with 20.2 tool calling turns on average, while the top open-weights model DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development of more capable language agents for real-world, long-horizon task execution.

Le Décathlon des Outils : Évaluation Comparative des Agents Langagiers pour l'Exécution de Tâches Diversifiées, Réalistes et à Long Horizon

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

papers.abstract

Support