ChatPaper.aiChatPaper

AgencyBench: Тестирование границ возможностей автономных агентов в реальных контекстах объемом 1 млн токенов

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

January 16, 2026
Авторы: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

Аннотация

Автономные агенты на основе больших языковых моделей (LLM) демонстрируют многогранные способности, позволяющие вносить существенный вклад в экономическое производство. Однако существующие бенчмарки остаются сфокусированными на единичных агентских возможностях и не охватывают долгосрочные сценарии реального мира. Более того, зависимость от обратной связи с участием человека для реалистичных задач создает проблему масштабируемости, препятствуя автоматизированному сбору и оценке результатов. Чтобы устранить этот пробел, мы представляем AgencyBench — комплексный бенчмарк, основанный на повседневном использовании ИИ, который оценивает 6 ключевых агентских способностей в 32 реальных сценариях, включающих 138 задач с конкретными запросами, результатами и критериями оценки. Для решения этих сценариев в среднем требуется около 90 вызовов инструментов, 1 миллион токенов и несколько часов времени выполнения. Для обеспечения автоматизированной оценки мы используем агента симуляции пользователя для предоставления итеративной обратной связи и Docker-песочницу для проведения визуальной и функциональной оценки на основе критериев. Эксперименты показывают, что проприетарные модели значительно превосходят модели с открытым исходным кодом (48,4% против 32,1%). Дальнейший анализ выявляет существенные различия между моделями в эффективности использования ресурсов, самокоррекции на основе обратной связи и предпочтениях в использовании конкретных инструментов. Наконец, мы исследуем влияние агентских каркасов, наблюдая, что проприетарные модели демонстрируют превосходную производительность в рамках своих собственных экосистем (например, Claude-4.5-Opus через Claude-Agent-SDK), в то время как модели с открытым исходным кодом показывают различные пики производительности, что указывает на потенциальную оптимизацию для конкретных сред выполнения. AgencyBench служит критически важным полигоном для агентов следующего поколения, подчеркивая необходимость совместной оптимизации архитектуры модели и агентских фреймворков. Мы считаем, что эта работа проливает свет на будущее развитие автономных агентов, и публикуем полный бенчмарк и набор инструментов для оценки по адресу https://github.com/GAIR-NLP/AgencyBench.
English
Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.
PDF21January 20, 2026