SaaSBench: Het verkennen van de grenzen van code-agenten in lange-termijn Enterprise SaaS-engineering

Samenvatting

Naarmate autonome codeeragenten steeds beter in staat zijn om taken met een lange horizon uit te voeren, hebben ze geleidelijk het potentieel getoond om end-to-end softwareontwikkeling te voltooien. Hoewel bestaande benchmarks zich recentelijk hebben ontwikkeld van lokale codebewerking tot projectgeneratie vanaf nul, blijven ze beperkt tot structureel vereenvoudigde applicaties met een enkele stack. Hierdoor kunnen ze de heterogene omgevingen, full-stack orkestratie en systeemniveaucomplexiteit van echte bedrijfssoftware als dienst (SaaS)-systemen niet vatten, waardoor er een kritische lacune ontstaat in de beoordeling van agenten onder realistische technische randvoorwaarden. Om deze lacune te vullen, introduceren wij SaaSBench, de eerste benchmark die is ontworpen om de grenzen van AI-agenten in enterprise SaaS-engineering te verkennen. De benchmark omvat 30 complexe taken verdeeld over 6 SaaS-domeinen met 5.370 validatieknooppunten, en integreert 8 programmeertalen, 6 databases en 13 frameworks om de heterogeniteit van echte software nauwkeurig na te bootsen. Verder ontwerpen wij een afhankelijkheidsbewust hybride evaluatieparadigma dat is toegesneden op complexe systemen met lange horizonten en meercomponentenkoppeling, wat een fijnmazige, reproduceerbare beoordeling mogelijk maakt. Cruciaal is dat onze uitgebreide experimenten een opvallend inzicht onthullen: de voornaamste bottleneck voor state-of-the-art agenten is niet het genereren van geïsoleerde coderegel, maar het succesvol configureren en integreren van een systeem met meerdere componenten. Meer dan 95% van de taakmislukkingen vindt plaats voordat agenten zelfs maar aan de diepe bedrijfslogica toe zijn, waarbij modellen vaak ten prooi vallen aan overmoed en voortijdig stoppen tijdens de fundamentele systeemopbouw, of vastlopen in ineffectieve debugcycli. Wij hopen dat SaaSBench dient als een praktische en uitdagende testomgeving om de evolutie van betrouwbare codeeragenten op systeemniveau te stimuleren. De code is beschikbaar op https://github.com/ShadeCloak/SaaSbench.

English

As autonomous coding agents become capable of handling increasingly long-horizon tasks, they have gradually demonstrated the potential to complete end-to-end software development. Although existing benchmarks have recently evolved from localized code editing to from-scratch project generation, they remain confined to structurally simplified, single-stack applications. Consequently, they fail to capture the heterogeneous environments, full-stack orchestration, and system-level complexity of real enterprise Software as a Service (SaaS) systems, leaving a critical gap in assessing agents under realistic engineering constraints. To fill this gap, we introduce SaaSBench, the first benchmark designed to explore the boundaries of AI agents in enterprise SaaS engineering. Spanning 30 complex tasks across 6 SaaS domains with 5,370 validation nodes, it incorporates 8 programming languages, 6 databases, and 13 frameworks to meticulously mirror real-world software heterogeneity. Furthermore, we design a dependency-aware hybrid evaluation paradigm tailored for complex systems with long horizons and multi-component coupling, enabling fine-grained, reproducible assessment. Crucially, our extensive experiments reveal a striking insight: the primary bottleneck for state-of-the-art agents is not generating isolated code logic, but successfully configuring and integrating a multi-component system. Over 95\% of task failures occur before agents even reach deep business logic, with models often falling victim to overconfidence and prematurely halting during foundational system setup, or getting trapped in ineffective debugging loops. We hope SaaSBench serves as a practical and challenging testbed to drive the evolution of reliable, system-level coding agents. The code is available at https://github.com/ShadeCloak/SaaSbench.