ChatPaper.aiChatPaper

ツールデカスロン:多様で現実的かつ長期的なタスク実行のための言語エージェントベンチマーク

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

October 29, 2025
著者: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI

要旨

実世界の言語エージェントは、多様なアプリケーションにわたる複雑で多段階のワークフローを扱う必要があります。例えば、エージェントはカレンダーやファイルシステムと連携してメールを管理したり、運用マニュアルに従って本番データベースを監視して異常を検出しレポートを生成したりします。しかし、既存の言語エージェントベンチマークは、狭いドメインや単純化されたタスクに焦点を当てることが多く、エージェントの実世界での性能を評価するために必要な多様性、現実性、長期的な複雑性が欠けています。このギャップを埋めるため、我々はTool Decathlon(Toolathlonと称する)を導入します。これは、多様なアプリケーションとツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークです。 Toolathlonは32のソフトウェアアプリケーションと604のツールを網羅し、GoogleカレンダーやNotionといった日常的なプラットフォームから、WooCommerce、Kubernetes、BigQueryなどの専門的なものまで範囲を広げています。ツールの大部分は、我々が修正または独自実装した高品質なModel Context Protocol(MCP)サーバー群に基づいています。従来の研究が主に機能的な現実性を確保する一方で環境状態の多様性が限られていたのに対し、我々は数十人の学生が登録されたCanvasコースや実際の財務スプレッドシートなど、実ソフトウェアから得られた現実的な初期環境状態を提供します。 このベンチマークには合計108の手動収集または作成されたタスクが含まれており、完了までに平均約20回の対話を要する複数アプリケーションとの連携が求められます。各タスクは専用の評価スクリプトを通じて厳密に検証可能です。SOTAモデルに対する包括的評価は、それらが重大な課題を抱えていることを浮き彫りにしています:最高性能のモデルであるClaude-4.5-Sonnetは、平均20.2回のツール呼び出しで成功率38.6%に留まり、トップのオープンウェイトモデルであるDeepSeek-V3.2-Expは20.1%を達成しています。我々はToolathlonが、実世界の長期的タスク実行に対応できるより優れた言語エージェントの開発を促進することを期待します。
English
Real-world language agents must handle complex, multi-step workflows across diverse Apps. For instance, an agent may manage emails by coordinating with calendars and file systems, or monitor a production database to detect anomalies and generate reports following an operating manual. However, existing language agent benchmarks often focus on narrow domains or simplified tasks that lack the diversity, realism, and long-horizon complexity required to evaluate agents' real-world performance. To address this gap, we introduce the Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering diverse Apps and tools, realistic environment setup, and reliable execution-based evaluation. Toolathlon spans 32 software applications and 604 tools, ranging from everyday platforms such as Google Calendar and Notion to professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools are based on a high-quality set of Model Context Protocol (MCP) servers that we may have revised or implemented ourselves. Unlike prior works, which primarily ensure functional realism but offer limited environment state diversity, we provide realistic initial environment states from real software, such as Canvas courses with dozens of students or real financial spreadsheets. This benchmark includes 108 manually sourced or crafted tasks in total, requiring interacting with multiple Apps over around 20 turns on average to complete. Each task is strictly verifiable through dedicated evaluation scripts. Comprehensive evaluation of SOTA models highlights their significant shortcomings: the best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate with 20.2 tool calling turns on average, while the top open-weights model DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development of more capable language agents for real-world, long-horizon task execution.
PDF451December 2, 2025