ChatPaper.aiChatPaper

AgencyBench : Évaluer les Frontières des Agents Autonomes dans des Contexte Réels d'1 Million de Tokens

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

January 16, 2026
papers.authors: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

papers.abstract

Les agents autonomes basés sur les modèles de langage de grande taille (LLM) démontrent des capacités multidimensionnelles à contribuer substantiellement à la production économique. Cependant, les benchmarks existants restent centrés sur une capacité agentique unique, échouant à capturer des scénarios réalistes à long terme. De plus, la dépendance à des retours humains pour des tâches réalistes crée un goulot d'étranglement d'évolutivité, entravant la collecte et l'évaluation automatisées. Pour combler cette lacune, nous présentons AgencyBench, un benchmark complet dérivé de l'utilisation quotidienne de l'IA, évaluant 6 capacités agentiques fondamentales à travers 32 scénarios réels, comprenant 138 tâches avec des requêtes, livrables et grilles d'évaluation spécifiques. Ces scénarios nécessitent en moyenne 90 appels d'outils, 1 million de tokens et plusieurs heures de temps d'exécution pour être résolus. Pour permettre l'évaluation automatisée, nous employons un agent de simulation utilisateur pour fournir des retours itératifs, et un bac à sable Docker pour réaliser une évaluation visuelle et fonctionnelle basée sur des grilles critériées. Les expériences révèlent que les modèles propriétaires surpassent significativement les modèles open-source (48,4% contre 32,1%). Une analyse plus poussée révèle des disparités significatives entre les modèles en termes d'efficacité des ressources, d'auto-correction pilotée par les retours et de préférences spécifiques d'utilisation d'outils. Enfin, nous étudions l'impact des échafaudages agentiques, observant que les modèles propriétaires démontrent des performances supérieures au sein de leurs écosystèmes natifs (par exemple, Claude-4.5-Opus via Claude-Agent-SDK), tandis que les modèles open-source présentent des pics de performance distincts, suggérant une optimisation potentielle pour des cadres d'exécution spécifiques. AgencyBench sert de banc d'essai critique pour les agents de nouvelle génération, soulignant la nécessité de co-optimiser l'architecture des modèles avec les cadres agentiques. Nous estimons que ce travail éclaire la direction future des agents autonomes, et nous publions l'intégralité du benchmark et la boîte à outils d'évaluation à l'adresse https://github.com/GAIR-NLP/AgencyBench.
English
Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.
PDF21January 20, 2026