SaaSBench: Исследование границ возможностей кодирующих агентов в долгосрочной инженерии корпоративных SaaS-решений

Аннотация

По мере того как автономные агенты программирования становятся способными выполнять задачи со всё более длинным горизонтом, они постепенно демонстрируют потенциал для осуществления сквозной разработки программного обеспечения. Хотя существующие бенчмарки в последнее время эволюционировали от локального редактирования кода до генерации проектов с нуля, они по-прежнему ограничены структурно упрощёнными одностековыми приложениями. В результате они не способны отразить гетерогенные среды, полностековую оркестрацию и системную сложность реальных корпоративных SaaS-систем, оставляя существенный пробел в оценке агентов в условиях реалистичных инженерных ограничений. Для заполнения этого пробела мы представляем SaaSBench — первый бенчмарк, предназначенный для исследования границ возможностей ИИ-агентов в корпоративной SaaS-инженерии. Охватывая 30 сложных задач в 6 доменах SaaS с 5370 узлами валидации, он включает 8 языков программирования, 6 баз данных и 13 фреймворков, тщательно отражая реальную гетерогенность программного обеспечения. Кроме того, мы разработали гибридную парадигму оценки с учётом зависимостей, адаптированную для сложных систем с длинным горизонтом и многокомпонентной связностью, что обеспечивает детальную и воспроизводимую оценку. Ключевым образом, наши обширные эксперименты выявили поразительное наблюдение: основным узким местом для современных агентов является не генерация изолированной логики кода, а успешная настройка и интеграция многокомпонентной системы. Более 95% отказов задач происходят до того, как агенты достигают глубокой бизнес-логики, причём модели часто становятся жертвами излишней самоуверенности и преждевременно останавливаются на этапе фундаментальной настройки системы или попадают в неэффективные циклы отладки. Мы надеемся, что SaaSBench послужит практичным и сложным испытательным полигоном для стимулирования эволюции надёжных системных агентов программирования. Код доступен по адресу https://github.com/ShadeCloak/SaaSbench.

English

As autonomous coding agents become capable of handling increasingly long-horizon tasks, they have gradually demonstrated the potential to complete end-to-end software development. Although existing benchmarks have recently evolved from localized code editing to from-scratch project generation, they remain confined to structurally simplified, single-stack applications. Consequently, they fail to capture the heterogeneous environments, full-stack orchestration, and system-level complexity of real enterprise Software as a Service (SaaS) systems, leaving a critical gap in assessing agents under realistic engineering constraints. To fill this gap, we introduce SaaSBench, the first benchmark designed to explore the boundaries of AI agents in enterprise SaaS engineering. Spanning 30 complex tasks across 6 SaaS domains with 5,370 validation nodes, it incorporates 8 programming languages, 6 databases, and 13 frameworks to meticulously mirror real-world software heterogeneity. Furthermore, we design a dependency-aware hybrid evaluation paradigm tailored for complex systems with long horizons and multi-component coupling, enabling fine-grained, reproducible assessment. Crucially, our extensive experiments reveal a striking insight: the primary bottleneck for state-of-the-art agents is not generating isolated code logic, but successfully configuring and integrating a multi-component system. Over 95\% of task failures occur before agents even reach deep business logic, with models often falling victim to overconfidence and prematurely halting during foundational system setup, or getting trapped in ineffective debugging loops. We hope SaaSBench serves as a practical and challenging testbed to drive the evolution of reliable, system-level coding agents. The code is available at https://github.com/ShadeCloak/SaaSbench.