EnterpriseOps-Gym: Entornos y Evaluaciones para la Planificación con Estado y el Uso de Herramientas por Agentes en Contextos Empresariales

Resumen

Los grandes modelos de lenguaje están evolucionando de proveedores pasivos de información a agentes activos destinados a flujos de trabajo complejos. Sin embargo, su despliegue como trabajadores de IA confiables en el ámbito empresarial se ve obstaculizado por puntos de referencia que no logran captar las complejidades de los entornos profesionales, específicamente, la necesidad de una planificación a largo plazo en medio de cambios de estado persistentes y protocolos de acceso estrictos. En este trabajo, presentamos EnterpriseOps-Gym, un punto de referencia diseñado para evaluar la planificación agentiva en entornos empresariales realistas. Específicamente, EnterpriseOps-Gym presenta un entorno de pruebas containerizado con 164 tablas de base de datos y 512 herramientas funcionales para simular la fricción de búsqueda del mundo real. Dentro de este entorno, los agentes son evaluados en 1,150 tareas curadas por expertos en ocho verticales críticas para la misión (incluyendo Servicio al Cliente, Recursos Humanos y TI). Nuestra evaluación de 14 modelos de vanguardia revela limitaciones críticas en los modelos más avanzados: el mejor modelo, Claude Opus 4.5, alcanza solo un 37.4% de éxito. Un análisis más profundo muestra que proporcionar planes humanos oráculo mejora el rendimiento entre 14 y 35 puntos porcentuales, identificando el razonamiento estratégico como el principal cuello de botella. Adicionalmente, los agentes fallan frecuentemente en rechazar tareas no factibles (el mejor modelo alcanza un 53.9%), lo que conduce a efectos secundarios no deseados y potencialmente dañinos. Nuestros hallazgos subrayan que los agentes actuales aún no están listos para un despliegue autónomo en la empresa. En un sentido más amplio, EnterpriseOps-Gym proporciona un banco de pruebas concreto para avanzar en la solidez de la planificación agentiva en los flujos de trabajo profesionales.

English

Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.

EnterpriseOps-Gym: Entornos y Evaluaciones para la Planificación con Estado y el Uso de Herramientas por Agentes en Contextos Empresariales

EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

Resumen

Support