ChatPaper.aiChatPaper

도구 데카슬론: 다양하고 현실적이며 장기적인 과제 수행을 위한 언어 에이전트 벤치마킹

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

October 29, 2025
저자: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He
cs.AI

초록

실제 언어 에이전트는 다양한 앱을 넘나드는 복잡한 다단계 워크플로를 처리할 수 있어야 합니다. 예를 들어, 에이전트는 캘린더 및 파일 시스템과 협업하여 이메일을 관리하거나, 운영 매뉴얼에 따라 프로덕션 데이터베이스를 모니터링하여 이상을 탐지하고 보고서를 생성할 수 있습니다. 그러나 기존 언어 에이전트 벤치마크는 주로 좁은 도메인이나 단순화된 작업에 집중하여 에이전트의 실제 성능을 평가하는 데 필요한 다양성, 현실성, 장기적 복잡성이 부족한 경우가 많습니다. 이러한 격차를 해결하기 위해 우리는 다양한 앱과 도구, 현실적인 환경 설정, 신뢰할 수 있는 실행 기반 평가를 제공하는 언어 에이전트 벤치마크인 Tool Decathlon(약칭 Toolathlon)을 소개합니다. Toolathlon은 Google Calendar, Notion과 같은 일상적인 플랫폼부터 WooCommerce, Kubernetes, BigQuery와 같은 전문 플랫폼에 이르기까지 32개의 소프트웨어 애플리케이션과 604개의 도구를 포괄합니다. 대부분의 도구는 우리가 수정하거나 직접 구현한 고품질의 Model Context Protocol(MCP) 서버 세트를 기반으로 합니다. 기능적 현실성은 주로 보장하지만 환경 상태 다양성이 제한된 기존 연구와 달리, 우리는 수십 명의 학생이 등록된 Canvas 강의 코스나 실제 금융 스프레드시트와 같이 실제 소프트웨어에서 가져온 현실적인 초기 환경 상태를 제공합니다. 이 벤치마크에는 총 108개의 수동으로 수집되거나 정제된 작업이 포함되어 있으며, 완료하기 위해 평균 약 20턴에 걸쳐 여러 앱과 상호작용이 필요합니다. 각 작업은 전용 평가 스크립트를 통해 엄격하게 검증 가능합니다. 최첨단(SOTA) 모델에 대한 포괄적 평가는 그들의 상당한 단점을 부각시킵니다: 최고 성능 모델인 Claude-4.5-Sonnet은 평균 20.2회의 도구 호출 턴으로 38.6%의 성공률에만 도달하는 반면, 최고의 오픈 웨이트 모델인 DeepSeek-V3.2-Exp는 20.1%에 도달합니다. 우리는 Toolathlon이 실제 세계의 장기적 작업 실행을 위한 더 능력 있는 언어 에이전트의 개발을 주도할 것으로 기대합니다.
English
Real-world language agents must handle complex, multi-step workflows across diverse Apps. For instance, an agent may manage emails by coordinating with calendars and file systems, or monitor a production database to detect anomalies and generate reports following an operating manual. However, existing language agent benchmarks often focus on narrow domains or simplified tasks that lack the diversity, realism, and long-horizon complexity required to evaluate agents' real-world performance. To address this gap, we introduce the Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering diverse Apps and tools, realistic environment setup, and reliable execution-based evaluation. Toolathlon spans 32 software applications and 604 tools, ranging from everyday platforms such as Google Calendar and Notion to professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools are based on a high-quality set of Model Context Protocol (MCP) servers that we may have revised or implemented ourselves. Unlike prior works, which primarily ensure functional realism but offer limited environment state diversity, we provide realistic initial environment states from real software, such as Canvas courses with dozens of students or real financial spreadsheets. This benchmark includes 108 manually sourced or crafted tasks in total, requiring interacting with multiple Apps over around 20 turns on average to complete. Each task is strictly verifiable through dedicated evaluation scripts. Comprehensive evaluation of SOTA models highlights their significant shortcomings: the best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate with 20.2 tool calling turns on average, while the top open-weights model DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development of more capable language agents for real-world, long-horizon task execution.
PDF451December 2, 2025