Il Decathlon degli Strumenti: Valutazione Comparativa di Agenti Linguistici per l'Esecuzione di Compiti Diversificati, Realistici e a Lungo Orizzonte
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
October 29, 2025
Autori: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI
Abstract
Gli agenti linguistici destinati ad applicazioni reali devono gestire flussi di lavoro complessi e multi-step attraverso applicazioni diverse. Ad esempio, un agente potrebbe gestire le email coordinando calendari e file system, o monitorare un database di produzione per rilevare anomalie e generare report seguendo un manuale operativo. Tuttavia, i benchmark esistenti per agenti linguistici si concentrano spesso su domini ristretti o su compiti semplificati, che mancano della diversità, del realismo e della complessità di lungo orizzonte necessari per valutare le prestazioni degli agenti in scenari reali. Per colmare questa lacuna, introduciamo il Tool Decathlon (soprannominato Toolathlon), un benchmark per agenti linguistici che offre applicazioni e strumenti diversificati, un setup ambientale realistico e una valutazione affidabile basata sull'esecuzione. Toolathlon copre 32 applicazioni software e 604 strumenti, che spaziano da piattaforme di uso comune come Google Calendar e Notion a quelle professionali come WooCommerce, Kubernetes e BigQuery. La maggior parte degli strumenti si basa su un insieme di alta qualità di server Model Context Protocol (MCP) che abbiamo revisionato o implementato noi stessi. A differenza dei lavori precedenti, che assicurano principalmente un realismo funzionale ma offrono una diversità limitata degli stati ambientali, noi forniamo stati ambientali iniziali realistici ricavati da software reali, come corsi Canvas con dozzine di studenti o fogli di calcolo finanziari reali. Questo benchmark include in totale 108 task raccolti o creati manualmente, che richiedono di interagire con più applicazioni per circa 20 turni in media per essere completati. Ogni task è verificabile in modo rigoroso tramite script di valutazione dedicati. Una valutazione completa dei modelli state-of-the-art ne evidenzia le significative carenze: il modello con le prestazioni migliori, Claude-4.5-Sonnet, raggiunge solo un tasso di successo del 38.6% con una media di 20.2 turni di chiamata a strumento, mentre il miglior modello open-weights, DeepSeek-V3.2-Exp, raggiunge il 20.1%. Ci attendiamo che Toolathlon guidi lo sviluppo di agenti linguistici più capaci per l'esecuzione di task reali e di lungo orizzonte.
English
Real-world language agents must handle complex, multi-step workflows across
diverse Apps. For instance, an agent may manage emails by coordinating with
calendars and file systems, or monitor a production database to detect
anomalies and generate reports following an operating manual. However, existing
language agent benchmarks often focus on narrow domains or simplified tasks
that lack the diversity, realism, and long-horizon complexity required to
evaluate agents' real-world performance. To address this gap, we introduce the
Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering
diverse Apps and tools, realistic environment setup, and reliable
execution-based evaluation. Toolathlon spans 32 software applications and 604
tools, ranging from everyday platforms such as Google Calendar and Notion to
professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools
are based on a high-quality set of Model Context Protocol (MCP) servers that we
may have revised or implemented ourselves. Unlike prior works, which primarily
ensure functional realism but offer limited environment state diversity, we
provide realistic initial environment states from real software, such as Canvas
courses with dozens of students or real financial spreadsheets. This benchmark
includes 108 manually sourced or crafted tasks in total, requiring interacting
with multiple Apps over around 20 turns on average to complete. Each task is
strictly verifiable through dedicated evaluation scripts. Comprehensive
evaluation of SOTA models highlights their significant shortcomings: the
best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate
with 20.2 tool calling turns on average, while the top open-weights model
DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development
of more capable language agents for real-world, long-horizon task execution.