ChatPaper.aiChatPaper

AgencyBench: Evaluación de las Fronteras de los Agentes Autónomos en Contextos del Mundo Real de 1 Millón de Tokens

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

January 16, 2026
Autores: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

Resumen

Los agentes autónomos basados en Modelos de Lenguaje Grandes (LLM) demuestran capacidades multifacéticas para contribuir sustancialmente a la producción económica. Sin embargo, los puntos de referencia existentes se centran en capacidades agenticas individuales, sin capturar escenarios del mundo real de largo horizonte. Además, la dependencia de la retroalimentación humana en el bucle para tareas realistas crea un cuello de botella de escalabilidad, obstaculizando la recolección y evaluación automatizada de implementaciones. Para cerrar esta brecha, presentamos AgencyBench, un punto de referencia integral derivado del uso diario de la IA, que evalúa 6 capacidades agenticas principales en 32 escenarios del mundo real, comprendiendo 138 tareas con consultas, entregables y rúbricas específicas. Estos escenarios requieren un promedio de 90 llamadas a herramientas, 1 millón de tokens y horas de tiempo de ejecución para resolverse. Para permitir una evaluación automatizada, empleamos un agente de simulación de usuario para proporcionar retroalimentación iterativa, y un entorno de pruebas Docker para realizar una evaluación visual y funcional basada en rúbricas. Los experimentos revelan que los modelos de código cerrado superan significativamente a los modelos de código abierto (48.4% vs 32.1%). Un análisis más profundo revela disparidades significativas entre los modelos en eficiencia de recursos, autocorrección impulsada por retroalimentación y preferencias específicas de uso de herramientas. Finalmente, investigamos el impacto de los andamiajes agenticos, observando que los modelos propietarios demuestran un rendimiento superior dentro de sus ecosistemas nativos (por ejemplo, Claude-4.5-Opus a través de Claude-Agent-SDK), mientras que los modelos de código abierto exhiben picos de rendimiento distintos, lo que sugiere una optimización potencial para marcos de ejecución específicos. AgencyBench sirve como un banco de pruebas crítico para los agentes de próxima generación, destacando la necesidad de co-optimizar la arquitectura del modelo con los marcos agenticos. Creemos que este trabajo arroja luz sobre la dirección futura de los agentes autónomos, y publicamos el punto de referencia completo y el kit de herramientas de evaluación en https://github.com/GAIR-NLP/AgencyBench.
English
Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.
PDF21January 20, 2026