ChatPaper.aiChatPaper

AgencyBench: Avaliando as Fronteiras dos Agentes Autónomos em Contextos do Mundo Real com 1 Milhão de Tokens

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

January 16, 2026
Autores: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

Resumo

Os agentes autónomos baseados em Large Language Models (LLMs) demonstram capacidades multifacetadas para contribuir substancialmente para a produção económica. No entanto, os benchmarks existentes mantêm-se focados em capacidades agentíticas individuais, falhando em capturar cenários do mundo real de longo horizonte. Além disso, a dependência de *feedback* humano em tarefas realistas cria um estrangulamento de escalabilidade, dificultando a recolha e avaliação automatizada de *rollouts*. Para colmatar esta lacuna, introduzimos o AgencyBench, um benchmark abrangente derivado do uso diário de IA, avaliando 6 capacidades agentíticas centrais em 32 cenários do mundo real, compreendendo 138 tarefas com consultas específicas, entregáveis e rubricas. Estes cenários requerem em média 90 chamadas a ferramentas, 1 milhão de *tokens* e horas de tempo de execução para serem resolvidos. Para permitir a avaliação automatizada, empregamos um agente de simulação de utilizador para fornecer *feedback* iterativo e um *sandbox* Docker para realizar uma avaliação baseada em rubricas visuais e funcionais. Experiências revelam que os modelos de código fechado superam significativamente os modelos de código aberto (48,4% vs 32,1%). Uma análise mais aprofundada revela disparidades significativas entre modelos em eficiência de recursos, autocorreção orientada por *feedback* e preferências específicas de uso de ferramentas. Finalmente, investigamos o impacto de *scaffolds* agentíticos, observando que os modelos proprietários demonstram desempenho superior dentro dos seus ecossistemas nativos (por exemplo, Claude-4.5-Opus via Claude-Agent-SDK), enquanto os modelos de código aberto exibem picos de desempenho distintos, sugerindo potencial otimização para estruturas de execução específicas. O AgencyBench serve como um banco de testes crítico para a próxima geração de agentes, destacando a necessidade de co-otimizar a arquitetura do modelo com estruturas agentíticas. Acreditamos que este trabalho lança luz sobre a direção futura dos agentes autónomos, e disponibilizamos o benchmark completo e o kit de ferramentas de avaliação em https://github.com/GAIR-NLP/AgencyBench.
English
Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.
PDF343February 27, 2026