AgencyBench: Het Afwegen van de Grenzen van Autonome Agents in Real-World Contexten van 1 Miljoen Tokens

Samenvatting

Autonome agents gebaseerd op grote taalmodellen (LLM's) vertonen veelzijdige capaciteiten om substantieel bij te dragen aan economische productie. Bestaande benchmarks richten zich echter nog steeds op één enkele agent-capaciteit, waardoor ze geen langetermijn, realistische scenario's kunnen vastleggen. Bovendien creëert de afhankelijkheid van menselijke feedback (human-in-the-loop) voor realistische taken een schaalbaarheidsprobleem, wat de geautomatiseerde verzameling en evaluatie van rollouts belemmert. Om deze kloof te overbruggen, introduceren wij AgencyBench, een uitgebreide benchmark afgeleid van dagelijks AI-gebruik, die 6 kernagent-capaciteiten evalueert in 32 realistische scenario's, bestaande uit 138 taken met specifieke queries, deliverables en beoordelingsrubrics. Deze scenario's vereisen gemiddeld 90 tool-aanroepen, 1 miljoen tokens en uren uitvoeringstijd om op te lossen. Om geautomatiseerde evaluatie mogelijk te maken, gebruiken wij een gebruikerssimulatie-agent om iteratieve feedback te geven en een Docker-sandbox om visuele en functionele beoordelingen op basis van rubrics uit te voeren. Experimenten tonen aan dat closed-source modellen open-source modellen significant overtreffen (48,4% vs. 32,1%). Verdere analyse onthult aanzienlijke verschillen tussen modellen wat betreft resource-efficiëntie, feedback-gestuurde zelfcorrectie en specifieke tool-gebruikvoorkeuren. Ten slotte onderzoeken wij de impact van agent-scaffolds, waarbij we vaststellen dat propriëtaire modellen superieure prestaties vertonen binnen hun eigen ecosystemen (bijv. Claude-4.5-Opus via Claude-Agent-SDK), terwijl open-source modellen duidelijke prestatiepieken vertonen, wat wijst op potentiële optimalisatie voor specifieke uitvoeringsframeworks. AgencyBench dient als een kritieke testomgeving voor de volgende generatie agents en benadrukt de noodzaak van co-optimalisatie van modelarchitectuur met agent-frameworks. Wij zijn van mening dat dit werk licht werpt op de toekomstige richting van autonome agents, en wij geven de volledige benchmark en evaluatietoolkit vrij op https://github.com/GAIR-NLP/AgencyBench.

English

Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.

AgencyBench: Het Afwegen van de Grenzen van Autonome Agents in Real-World Contexten van 1 Miljoen Tokens

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Samenvatting

Support