AgencyBench: Valutazione delle Frontiere degli Agenti Autonomi in Contesti Reali da 1 Milione di Token

Abstract

Gli agenti autonomi basati su Large Language Model (LLM) dimostrano capacità poliedriche per contribuire sostanzialmente alla produzione economica. Tuttavia, i benchmark esistenti rimangono focalizzati su singole capacità agentiche, non riuscendo a cogliere scenari reali di lungo periodo. Inoltre, la dipendenza da feedback umano in-the-loop per compiti realistici crea un collo di bottiglia di scalabilità, ostacolando la raccolta e la valutazione automatizzata dei rollout. Per colmare questa lacuna, introduciamo AgencyBench, un benchmark completo derivato dall'uso quotidiano dell'IA, che valuta 6 capacità agentiche fondamentali attraverso 32 scenari del mondo reale, comprendenti 138 compiti con query specifiche, deliverable e rubriche di valutazione. Questi scenari richiedono in media 90 chiamate a strumenti, 1 milione di token e ore di tempo di esecuzione per essere risolti. Per abilitare la valutazione automatizzata, impieghiamo un agente di simulazione utente per fornire feedback iterativo e un sandbox Docker per condurre una valutazione basata su rubriche visive e funzionali. Gli esperimenti rivelano che i modelli closed-source sovraperformano significativamente quelli open-source (48,4% vs 32,1%). Un'analisi più approfondita rivela disparità significative tra i modelli in termini di efficienza delle risorse, autocorrezione guidata da feedback e preferenze specifiche nell'uso degli strumenti. Infine, investigiamo l'impatto degli scaffold agentici, osservando che i modelli proprietari dimostrano prestazioni superiori all'interno dei loro ecosistemi nativi (ad esempio, Claude-4.5-Opus tramite Claude-Agent-SDK), mentre i modelli open-source mostrano picchi di prestazione distinti, suggerendo una potenziale ottimizzazione per specifici framework di esecuzione. AgencyBench funge da banco di prova critico per gli agenti di prossima generazione, evidenziando la necessità di co-ottimizzare l'architettura del modello con i framework agentici. Riteniamo che questo lavoro faccia luce sulla direzione futura degli agenti autonomi e rilasciamo il benchmark completo e il toolkit di valutazione all'indirizzo https://github.com/GAIR-NLP/AgencyBench.

English

Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.

AgencyBench: Valutazione delle Frontiere degli Agenti Autonomi in Contesti Reali da 1 Milione di Token

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Abstract

Support