EnterpriseOps-Gym: Среда и методы оценки для планирования с сохранением состояния и использования инструментов агентами в корпоративных системах

Аннотация

Крупные языковые модели переходят от пассивных поставщиков информации к активным агентам, предназначенным для сложных рабочих процессов. Однако их внедрение в качестве надежных ИИ-работников в корпоративной среде тормозится из-за бенчмарков, которые не учитывают сложность профессиональных сред, в частности, необходимость долгосрочного планирования в условиях постоянных изменений состояния и строгих протоколов доступа. В данной работе мы представляем EnterpriseOps-Gym — бенчмарк, разработанный для оценки агентского планирования в реалистичных корпоративных условиях. А именно, EnterpriseOps-Gym включает контейнеризованную песочницу с 164 таблицами базы данных и 512 функциональными инструментами, чтобы имитировать реальное трение поиска. В этой среде агенты оцениваются по 1150 экспертным задачам, охватывающим восемь критически важных направлений (включая клиентский сервис, HR и IT). Наша оценка 14 передовых моделей выявляет критические ограничения современных решений: лучшая модель, Claude Opus 4.5, достигает успеха лишь в 37,4% случаев. Дальнейший анализ показывает, что предоставление эталонных человеческих планов повышает производительность на 14–35 процентных пунктов, что указывает на стратегическое мышление как на основное узкое место. Кроме того, агенты часто не отказываются от невыполнимых задач (лучшая модель справляется лишь в 53,9% случаев), что приводит к непреднамеренным и потенциально вредным побочным эффектам. Наши выводы подчеркивают, что текущие агенты еще не готовы к автономному развертыванию в предприятиях. В более широком смысле, EnterpriseOps-Gym предоставляет конкретный полигон для повышения надежности агентского планирования в профессиональных рабочих процессах.

English

Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.

EnterpriseOps-Gym: Среда и методы оценки для планирования с сохранением состояния и использования инструментов агентами в корпоративных системах

EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

Аннотация

Support