Das Werkzeug-Dekathlon: Evaluierung von Sprachagenten für vielfältige, realistische und langfristige Aufgabenausführung
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
October 29, 2025
papers.authors: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI
papers.abstract
Sprachagenten in der Praxis müssen komplexe, mehrstufige Arbeitsabläufe über verschiedene Anwendungen hinweg bewältigen. Beispielsweise könnte ein Agent E-Mails verwalten, indem er mit Kalendern und Dateisystemen koordiniert, oder eine Produktionsdatenbank überwachen, um Anomalien zu erkennen und Berichte gemäß einem Betriebshandbuch zu erstellen. Bisher konzentrieren sich vorhandene Benchmarks für Sprachagenten jedoch oft auf enge Domänen oder vereinfachte Aufgaben, denen die Vielfalt, der Realismus und die langfristige Komplexität fehlen, die zur Bewertung der realen Leistungsfähigkeit von Agenten erforderlich sind. Um diese Lücke zu schließen, stellen wir den Tool Decathlon (auch Toolathlon genannt) vor, einen Benchmark für Sprachagenten, der eine Vielzahl von Apps und Tools, eine realistische Umgebungseinrichtung und eine zuverlässige, auf Ausführung basierende Bewertung bietet.
Toolathlon umfasst 32 Softwareanwendungen und 604 Tools, die von alltäglichen Plattformen wie Google Kalender und Notion bis hin zu professionellen Anwendungen wie WooCommerce, Kubernetes und BigQuery reichen. Die meisten Tools basieren auf einem hochwertigen Satz von Model Context Protocol (MCP)-Servern, die wir möglicherweise überarbeitet oder selbst implementiert haben. Im Gegensatz zu früheren Arbeiten, die hauptsächlich funktionalen Realismus sicherstellen, aber nur eine begrenzte Vielfalt an Umgebungszuständen bieten, stellen wir realistische initiale Umgebungszustände aus realer Software bereit, wie etwa Canvas-Kurse mit Dutzenden von Studierenden oder echte Finanztabellen. Dieser Benchmark umfasst insgesamt 108 manuell beschaffte oder erstellte Aufgaben, die durchschnittlich etwa 20 Interaktionen mit mehreren Apps zu ihrer Bewältigung erfordern. Jede Aufgabe ist durch dedizierte Auswertungsskripte streng überprüfbar.
Eine umfassende Evaluation von State-of-the-Art-Modellen zeigt deren erhebliche Defizite auf: Das leistungsstärkste Modell, Claude-4.5-Sonnet, erreicht eine Erfolgsquote von nur 38,6 % bei durchschnittlich 20,2 Tool-Aufrufen, während das beste Modell mit offenen Gewichten, DeepSeek-V3.2-Exp, 20,1 % erreicht. Wir erwarten, dass Toolathlon die Entwicklung leistungsfähigerer Sprachagenten für die Ausführung langer, realer Aufgaben vorantreiben wird.
English
Real-world language agents must handle complex, multi-step workflows across
diverse Apps. For instance, an agent may manage emails by coordinating with
calendars and file systems, or monitor a production database to detect
anomalies and generate reports following an operating manual. However, existing
language agent benchmarks often focus on narrow domains or simplified tasks
that lack the diversity, realism, and long-horizon complexity required to
evaluate agents' real-world performance. To address this gap, we introduce the
Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering
diverse Apps and tools, realistic environment setup, and reliable
execution-based evaluation. Toolathlon spans 32 software applications and 604
tools, ranging from everyday platforms such as Google Calendar and Notion to
professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools
are based on a high-quality set of Model Context Protocol (MCP) servers that we
may have revised or implemented ourselves. Unlike prior works, which primarily
ensure functional realism but offer limited environment state diversity, we
provide realistic initial environment states from real software, such as Canvas
courses with dozens of students or real financial spreadsheets. This benchmark
includes 108 manually sourced or crafted tasks in total, requiring interacting
with multiple Apps over around 20 turns on average to complete. Each task is
strictly verifiable through dedicated evaluation scripts. Comprehensive
evaluation of SOTA models highlights their significant shortcomings: the
best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate
with 20.2 tool calling turns on average, while the top open-weights model
DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development
of more capable language agents for real-world, long-horizon task execution.