EnterpriseOps-Gym : Environnements et évaluations pour la planification agentique avec état et l'utilisation d'outils en contexte d'entreprise

Résumé

Les grands modèles de langage évoluent de fournisseurs d'information passifs vers des agents actifs destinés à des workflows complexes. Cependant, leur déploiement en tant que travailleurs IA fiables en entreprise est entravé par des benchmarks qui ne capturent pas les subtilités des environnements professionnels, notamment la nécessité d'une planification à long horizon face à des changements d'état persistants et des protocoles d'accès stricts. Dans ce travail, nous présentons EnterpriseOps-Gym, un benchmark conçu pour évaluer la planification agentique dans des contextes enterprise réalistes. Plus précisément, EnterpriseOps-Gym propose un sandbox conteneurisé avec 164 tables de base de données et 512 outils fonctionnels pour simuler les frictions de recherche du monde réel. Dans cet environnement, les agents sont évalués sur 1 150 tâches expertes réparties sur huit verticales critiques (incluant le Service Client, les RH et l'IT). Notre évaluation de 14 modèles frontière révèle des limitations critiques : le meilleur modèle, Claude Opus 4.5, n'atteint que 37,4% de succès. Une analyse approfondie montre que fournir des plans humains oracle améliore les performances de 14 à 35 points de pourcentage, identifiant le raisonnement stratégique comme le principal goulot d'étranglement. De plus, les agents échouent fréquemment à refuser des tâches irréalisables (le meilleur modèle atteint 53,9%), entraînant des effets secondaires non souhaités et potentiellement dommageables. Nos résultats soulignent que les agents actuels ne sont pas encore prêts pour un déploiement autonome en entreprise. Plus largement, EnterpriseOps-Gym fournit un banc d'essai concret pour améliorer la robustesse de la planification agentique dans les workflows professionnels.

English

Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.

EnterpriseOps-Gym : Environnements et évaluations pour la planification agentique avec état et l'utilisation d'outils en contexte d'entreprise

EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

Résumé

Support