AgencyBench: Avaliando as Fronteiras dos Agentes Autónomos em Contextos do Mundo Real com 1 Milhão de Tokens

Resumo

Os agentes autónomos baseados em Large Language Models (LLMs) demonstram capacidades multifacetadas para contribuir substancialmente para a produção económica. No entanto, os benchmarks existentes mantêm-se focados em capacidades agentíticas individuais, falhando em capturar cenários do mundo real de longo horizonte. Além disso, a dependência de *feedback* humano em tarefas realistas cria um estrangulamento de escalabilidade, dificultando a recolha e avaliação automatizada de *rollouts*. Para colmatar esta lacuna, introduzimos o AgencyBench, um benchmark abrangente derivado do uso diário de IA, avaliando 6 capacidades agentíticas centrais em 32 cenários do mundo real, compreendendo 138 tarefas com consultas específicas, entregáveis e rubricas. Estes cenários requerem em média 90 chamadas a ferramentas, 1 milhão de *tokens* e horas de tempo de execução para serem resolvidos. Para permitir a avaliação automatizada, empregamos um agente de simulação de utilizador para fornecer *feedback* iterativo e um *sandbox* Docker para realizar uma avaliação baseada em rubricas visuais e funcionais. Experiências revelam que os modelos de código fechado superam significativamente os modelos de código aberto (48,4% vs 32,1%). Uma análise mais aprofundada revela disparidades significativas entre modelos em eficiência de recursos, autocorreção orientada por *feedback* e preferências específicas de uso de ferramentas. Finalmente, investigamos o impacto de *scaffolds* agentíticos, observando que os modelos proprietários demonstram desempenho superior dentro dos seus ecossistemas nativos (por exemplo, Claude-4.5-Opus via Claude-Agent-SDK), enquanto os modelos de código aberto exibem picos de desempenho distintos, sugerindo potencial otimização para estruturas de execução específicas. O AgencyBench serve como um banco de testes crítico para a próxima geração de agentes, destacando a necessidade de co-otimizar a arquitetura do modelo com estruturas agentíticas. Acreditamos que este trabalho lança luz sobre a direção futura dos agentes autónomos, e disponibilizamos o benchmark completo e o kit de ferramentas de avaliação em https://github.com/GAIR-NLP/AgencyBench.

English

Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.

AgencyBench: Avaliando as Fronteiras dos Agentes Autónomos em Contextos do Mundo Real com 1 Milhão de Tokens

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Resumo

Support