ChatPaper.aiChatPaper

AgencyBench: Benchmarking der Grenzen autonomer Agenten in 1-Million-Token-realweltlichen Kontexten

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

January 16, 2026
papers.authors: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

papers.abstract

Autonome Agenten auf Basis großer Sprachmodelle (LLMs) zeigen vielfältige Fähigkeiten, um wesentlich zur wirtschaftlichen Produktion beizutragen. Bestehende Benchmarks konzentrieren sich jedoch weiterhin auf Einzelfähigkeiten von Agenten und erfassen keine langfristigen, realen Szenarien. Darüber hinaus stellt die Abhängigkeit von Human-in-the-Loop-Feedback für realistische Aufgaben einen Skalierbarkeitsengpass dar, der die automatisierte Sammlung und Auswertung von Rollouts behindert. Um diese Lücke zu schließen, führen wir AgencyBench ein, einen umfassenden Benchmark, der aus der täglichen KI-Nutzung abgeleitet ist. Er bewertet 6 Kernfähigkeiten von Agenten in 32 realen Szenarien, bestehend aus 138 Aufgaben mit spezifischen Abfragen, Ergebnissen und Bewertungsrubriken. Diese Szenarien erfordern durchschnittlich 90 Tool-Aufrufe, 1 Million Tokens und Stunden an Ausführungszeit, um gelöst zu werden. Um eine automatisierte Evaluation zu ermöglichen, setzen wir einen Benutzersimulations-Agenten für iteratives Feedback ein und eine Docker-Sandbox für visuelle und funktionale Bewertungen auf Basis der Rubriken. Experimente zeigen, dass Closed-Source-Modelle Open-Source-Modelle deutlich übertreffen (48,4 % vs. 32,1 %). Eine weitergehende Analyse offenbart erhebliche Disparitäten zwischen den Modellen in Bezug auf Ressourceneffizienz, feedbackgesteuerte Selbstkorrektur und spezifische Tool-Nutzungspräferenzen. Abschließend untersuchen wir die Auswirkungen von Agenten-Scaffolds und beobachten, dass proprietäre Modelle in ihren nativen Ökosystemen eine überlegene Leistung zeigen (z.B. Claude-4.5-Opus via Claude-Agent-SDK), während Open-Source-Modelle distincte Leistungsspitzen aufweisen, was auf eine potenzielle Optimierung für bestimmte Ausführungsframeworks hindeutet. AgencyBench dient als kritische Testumgebung für Agenten der nächsten Generation und unterstreicht die Notwendigkeit, Modellarchitekturen gemeinsam mit Agenten-Frameworks zu optimieren. Wir sind überzeugt, dass diese Arbeit die zukünftige Richtung autonomer Agenten beleuchtet, und veröffentlichen den vollständigen Benchmark sowie das Evaluation-Toolkit unter https://github.com/GAIR-NLP/AgencyBench.
English
Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.
PDF21January 20, 2026