Инструментальный декатлон: оценка языковых агентов для выполнения разнообразных, реалистичных и долгосрочных задач
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
October 29, 2025
Авторы: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI
Аннотация
Языковые агенты, предназначенные для реального мира, должны справляться со сложными, многошаговыми рабочими процессами, затрагивающими разнообразные приложения. Например, агент может управлять электронной почтой, координируя работу с календарями и файловыми системами, или отслеживать производственную базу данных для выявления аномалий и формирования отчетов в соответствии с руководством по эксплуатации. Однако существующие бенчмарки для языковых агентов часто сосредоточены на узких областях или упрощенных задачах, которым не хватает разнообразия, реалистичности и долгосрочной сложности, необходимых для оценки реальной производительности агентов. Чтобы устранить этот пробел, мы представляем Tool Decathlon (также именуемый Toolathlon) — бенчмарк для языковых агентов, предлагающий разнообразные приложения и инструменты, реалистичную настройку среды и надежную оценку на основе исполнения.
Toolathlon охватывает 32 программных приложения и 604 инструмента, от повседневных платформ, таких как Google Calendar и Notion, до профессиональных, таких как WooCommerce, Kubernetes и BigQuery. Большинство инструментов основано на высококачественном наборе серверов Model Context Protocol (MCP), которые мы могли пересмотреть или реализовать самостоятельно. В отличие от предыдущих работ, которые в основном обеспечивают функциональный реализм, но предлагают ограниченное разнообразие состояний среды, мы предоставляем реалистичные исходные состояния среды из реального программного обеспечения, такие как курсы в Canvas с десятками студентов или реальные финансовые таблицы.
Данный бенчмарк включает в общей сложности 108 задач, собранных или созданных вручную, для выполнения которых требуется взаимодействие с несколькими приложениями в среднем за около 20 шагов (turn). Каждая задача строго проверяема с помощью специальных скриптов оценки. Всесторонняя оценка современных моделей (SOTA) выявляет их существенные недостатки: лучшая модель, Claude-4.5-Sonnet, достигает уровня успеха лишь в 38.6% случаев, в среднем используя 20.2 вызова инструментов, в то время как лучшая модель с открытыми весами DeepSeek-V3.2-Exp достигает 20.1%. Мы ожидаем, что Toolathlon будет стимулировать разработку более совершенных языковых агентов для выполнения долгосрочных задач в реальном мире.
English
Real-world language agents must handle complex, multi-step workflows across
diverse Apps. For instance, an agent may manage emails by coordinating with
calendars and file systems, or monitor a production database to detect
anomalies and generate reports following an operating manual. However, existing
language agent benchmarks often focus on narrow domains or simplified tasks
that lack the diversity, realism, and long-horizon complexity required to
evaluate agents' real-world performance. To address this gap, we introduce the
Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering
diverse Apps and tools, realistic environment setup, and reliable
execution-based evaluation. Toolathlon spans 32 software applications and 604
tools, ranging from everyday platforms such as Google Calendar and Notion to
professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools
are based on a high-quality set of Model Context Protocol (MCP) servers that we
may have revised or implemented ourselves. Unlike prior works, which primarily
ensure functional realism but offer limited environment state diversity, we
provide realistic initial environment states from real software, such as Canvas
courses with dozens of students or real financial spreadsheets. This benchmark
includes 108 manually sourced or crafted tasks in total, requiring interacting
with multiple Apps over around 20 turns on average to complete. Each task is
strictly verifiable through dedicated evaluation scripts. Comprehensive
evaluation of SOTA models highlights their significant shortcomings: the
best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate
with 20.2 tool calling turns on average, while the top open-weights model
DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development
of more capable language agents for real-world, long-horizon task execution.