EnterpriseOps-Gym: Ambientes e Avaliações para Planejamento Estatal e Uso de Ferramentas por Agentes em Ambientes Corporativos

Resumo

Os grandes modelos de linguagem estão a evoluir de fornecedores passivos de informação para agentes ativos destinados a fluxos de trabalho complexos. No entanto, a sua implantação como trabalhadores de IA confiáveis nas empresas é dificultada por benchmarks que não captam as complexidades dos ambientes profissionais, especificamente a necessidade de planeamento de longo horizonte no meio de alterações de estado persistentes e protocolos de acesso rigorosos. Neste trabalho, introduzimos o EnterpriseOps-Gym, um benchmark concebido para avaliar o planeamento de agentes em ambientes empresariais realistas. Especificamente, o EnterpriseOps-Gym apresenta um sandbox contentorizado com 164 tabelas de base de dados e 512 ferramentas funcionais para simular a fricção de pesquisa do mundo real. Dentro deste ambiente, os agentes são avaliados em 1.150 tarefas curadas por especialistas em oito verticais críticas (incluindo Serviço ao Cliente, Recursos Humanos e TI). A nossa avaliação de 14 modelos de ponta revela limitações críticas nos modelos mais avançados: o melhor desempenho, do Claude Opus 4.5, atinge apenas 37,4% de sucesso. Uma análise mais aprofundada mostra que fornecer planos humanos oráculo melhora o desempenho em 14-35 pontos percentuais, identificando o raciocínio estratégico como o principal estrangulamento. Adicionalmente, os agentes falham frequentemente em recusar tarefas inviáveis (o melhor modelo atinge 53,9%), levando a efeitos secundários não intencionais e potencialmente prejudiciais. As nossas conclusões sublinham que os agentes atuais ainda não estão prontos para implantação autónoma em ambientes empresariais. De forma mais ampla, o EnterpriseOps-Gym fornece um campo de testes concreto para avançar a robustez do planeamento de agentes em fluxos de trabalho profissionais.

English

Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.