ChatPaper.aiChatPaper

AgencyBench: 100万トークンの実世界コンテキストにおける自律エージェントの最先端性能評価

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

January 16, 2026
著者: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

要旨

大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的な能力を示している。しかし、既存のベンチマークは単一のエージェント能力に焦点を当てたままであり、長期的な実世界のシナリオを捉えられていない。さらに、現実的なタスクにおける人間介在型フィードバックへの依存は、スケーラビリティのボトルネックを生み、自動化されたロールアウト収集と評価を妨げている。このギャップを埋めるため、我々は日常的なAI使用から導出された包括的ベンチマークであるAgencyBenchを提案する。これは32の実世界シナリオにわたる6つの核心的エージェント能力を評価し、138のタスク(具体的なクエリ、成果物、評価基準を含む)で構成される。これらのシナリオを解決するには、平均90回のツール呼び出し、100万トークン、数時間の実行時間を要する。自動評価を可能にするため、ユーザーシミュレーションエージェントを用いて反復的フィードバックを提供し、Dockerサンドボックスを用いて視覚的および機能的な評価基準に基づく評価を実施する。実験により、クローズドソースモデルがオープンソースモデルを大きく上回る(48.4% vs 32.1%)ことが明らかになった。さらなる分析から、リソース効率、フィードバック駆動型自己修正、特定のツール使用選好において、モデル間で顕著な差異があることがわかった。最後に、エージェント支援手法の影響を調査し、プロプライエタリモデルは自社のエコシステム内で優れた性能を示す(例:Claude-Agent-SDK経由のClaude-4.5-Opus)のに対し、オープンソースモデルは特定の実行フレームワークで異なる性能ピークを示し、特定のフレームワーク向け最適化の可能性が示唆されることを観察した。AgencyBenchは次世代エージェントの重要な試験場として、モデルアーキテクチャとエージェントフレームワークの共最適化の必要性を浮き彫りにする。我々は本研究成果が自律エージェントの将来方向を照らすと信じ、完全なベンチマークと評価ツールキットをhttps://github.com/GAIR-NLP/AgencyBenchで公開する。
English
Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.
PDF21January 20, 2026