EnterpriseOps-Gym: Umgebungen und Bewertungen für zustandsbehaftetes agentenbasiertes Planen und Werkzeugeinsatz in Unternehmensumgebungen

Zusammenfassung

Große Sprachmodelle entwickeln sich von passiven Informationslieferanten zu aktiven Agenten für komplexe Arbeitsabläufe. Ihr Einsatz als zuverlässige KI-Mitarbeiter in Unternehmen wird jedoch durch Benchmarks gebremst, die die Komplexität professioneller Umgebungen nicht erfassen, insbesondere den Bedarf an langfristiger Planung bei persistenten Zustandsänderungen und strengen Zugriffsprotokollen. In dieser Arbeit stellen wir EnterpriseOps-Gym vor, einen Benchmark zur Bewertung agentenbasierter Planung in realistischen Unternehmensumgebungen. Konkret bietet EnterpriseOps-Gym eine containerisierte Sandbox mit 164 Datenbanktabellen und 512 funktionalen Tools, um reale Suchreibung zu simulieren. In dieser Umgebung werden Agenten an 1.150 von Experten kuratierten Aufgaben aus acht geschäftskritischen Bereichen (einschließlich Kundenservice, Personalwesen und IT) evaluiert. Unsere Evaluation von 14 führenden Modellen zeigt kritische Limitationen aktuellster Modelle auf: Das beste Modell, Claude Opus 4.5, erreicht nur eine Erfolgsquote von 37,4%. Eine weitergehende Analyse zeigt, dass das Vorgeben menschlicher Oracle-Pläne die Leistung um 14-35 Prozentpunkte verbessert, was strategisches Reasoning als primären Engpass identifiziert. Zudem scheitern Agenten häufig daran, undurchführbare Aufgaben abzulehnen (bestes Modell: 53,9%), was zu unbeabsichtigten und potenziell schädlichen Nebeneffekten führt. Unsere Ergebnisse unterstreichen, dass aktuelle Agenten noch nicht bereit für den autonomen Unternehmenseinsatz sind. Im weiteren Sinne bietet EnterpriseOps-Gym eine konkrete Testumgebung, um die Robustheit agentenbasierter Planung in professionellen Workflows voranzutreiben.

English

Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.

EnterpriseOps-Gym: Umgebungen und Bewertungen für zustandsbehaftetes agentenbasiertes Planen und Werkzeugeinsatz in Unternehmensumgebungen

EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

Zusammenfassung

Support