EnterpriseOps-Gym: Ambienti e Valutazioni per la Pianificazione Agente con Stato e l'Uso di Strumenti in Contesti Aziendali

Abstract

I grandi modelli linguistici stanno evolvendo da fornitori passivi di informazioni ad agenti attivi progettati per flussi di lavoro complessi. Tuttavia, il loro dispiegamento come operatori di IA affidabili in ambito aziendale è ostacolato da benchmark che non colgono le complessità degli ambienti professionali, in particolare la necessità di una pianificazione a lungo termine in mezzo a cambiamenti di stato persistenti e protocolli di accesso rigorosi. In questo lavoro, introduciamo EnterpriseOps-Gym, un benchmark progettato per valutare la pianificazione agentica in contesti aziendali realistici. Nello specifico, EnterpriseOps-Gym presenta un ambiente sandbox containerizzato con 164 tabelle di database e 512 strumenti funzionali per simulare l'attrito della ricerca nel mondo reale. All'interno di questo ambiente, gli agenti vengono valutati su 1.150 task curati da esperti, distribuiti in otto verticali mission-critical (tra cui Servizio Clienti, Risorse Umane e IT). La nostra valutazione di 14 modelli all'avanguardia rivela limitazioni critiche nei modelli più avanzati: il Claude Opus 4.5, il migliore, raggiunge solo un tasso di successo del 37,4%. Un'analisi più approfondita mostra che fornire piani umani "oracolo" migliora le prestazioni del 14-35 percento, individuando il ragionamento strategico come il collo di bottiglia principale. Inoltre, gli agenti spesso non riescono a rifiutare task non fattibili (il modello migliore raggiunge il 53,9%), portando a effetti collaterali indesiderati e potenzialmente dannosi. Le nostre scoperte sottolineano che gli agenti attuali non sono ancora pronti per un dispiegamento autonomo in azienda. Più in generale, EnterpriseOps-Gym fornisce un banco di prova concreto per far progredire la robustezza della pianificazione agentica nei flussi di lavoro professionali.

English

Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.

EnterpriseOps-Gym: Ambienti e Valutazioni per la Pianificazione Agente con Stato e l'Uso di Strumenti in Contesti Aziendali

EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

Abstract

Support