De Tool Decathlon: Het benchmarken van taalagentschappen voor de uitvoering van diverse, realistische en langetermijntaken
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
October 29, 2025
Auteurs: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI
Samenvatting
Taalagenten in de praktijk moeten complexe, meerstaps werkstromen kunnen verwerken in uiteenlopende applicaties. Een agent kan bijvoorbeeld e-mails beheren door afstemming met agenda's en bestandssystemen, of een productiedatabase monitoren om anomalieën op te sporen en rapporten te genereren volgens een bedieningshandleiding. Bestaande benchmarks voor taalagenten richten zich echter vaak op smalle domeinen of vereenvoudigde taken, waarbij de diversiteit, realiteitsgetrouwheid en langetermijncomplexiteit ontbreekt die nodig zijn om de prestaties van agenten in de praktijk te evalueren. Om deze kloof te dichten, introduceren we de Tool Decathlon (ook wel Toolathlon genoemd), een benchmark voor taalagenten die diverse apps en tools biedt, een realistische omgevingopzet en een betrouwbare op uitvoering gebaseerde evaluatie.
Toolathlon omvat 32 softwareapplicaties en 604 tools, variërend van alledaagse platforms zoals Google Calendar en Notion tot professionele zoals WooCommerce, Kubernetes en BigQuery. De meeste tools zijn gebaseerd op een hoogwaardige set Model Context Protocol (MCP)-servers die we mogelijk hebben herzien of zelf geïmplementeerd. In tegenstelling tot eerdere werken, die vooral functionele realisme waarborgen maar beperkte diversiteit in omgevingstoestanden bieden, bieden we realistische initiële omgevingstoestanden afkomstig uit echte software, zoals Canvas-cursussen met tientallen studenten of echte financiële spreadsheets. Deze benchmark omvat in totaal 108 handmatig verzamelde of vervaardigde taken, die gemiddeld ongeveer 20 interacties met meerdere apps vereisen om te voltooien. Elke taak is strikt verifieerbaar via toegewijde evaluatiescripts.
Een uitgebreide evaluatie van state-of-the-art modellen benadrukt hun significante tekortkomingen: het best presterende model, Claude-4.5-Sonnet, behaalt slechts een slagingspercentage van 38,6% met gemiddeld 20,2 toolaanroepen, terwijl het topmodel met open gewichten, DeepSeek-V3.2-Exp, 20,1% bereikt. We verwachten dat Toolathlon de ontwikkeling zal stimuleren van capabelere taalagenten voor de uitvoering van realistische, langetermijntaken.
English
Real-world language agents must handle complex, multi-step workflows across
diverse Apps. For instance, an agent may manage emails by coordinating with
calendars and file systems, or monitor a production database to detect
anomalies and generate reports following an operating manual. However, existing
language agent benchmarks often focus on narrow domains or simplified tasks
that lack the diversity, realism, and long-horizon complexity required to
evaluate agents' real-world performance. To address this gap, we introduce the
Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering
diverse Apps and tools, realistic environment setup, and reliable
execution-based evaluation. Toolathlon spans 32 software applications and 604
tools, ranging from everyday platforms such as Google Calendar and Notion to
professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools
are based on a high-quality set of Model Context Protocol (MCP) servers that we
may have revised or implemented ourselves. Unlike prior works, which primarily
ensure functional realism but offer limited environment state diversity, we
provide realistic initial environment states from real software, such as Canvas
courses with dozens of students or real financial spreadsheets. This benchmark
includes 108 manually sourced or crafted tasks in total, requiring interacting
with multiple Apps over around 20 turns on average to complete. Each task is
strictly verifiable through dedicated evaluation scripts. Comprehensive
evaluation of SOTA models highlights their significant shortcomings: the
best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate
with 20.2 tool calling turns on average, while the top open-weights model
DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development
of more capable language agents for real-world, long-horizon task execution.