SaaSBench: Erkundung der Grenzen von Code-Agenten im Langzeit-Enterprise-SaaS-Engineering

Zusammenfassung

Da autonome Codierungsagenten zunehmend in der Lage sind, langfristige Aufgaben zu bewältigen, haben sie allmählich das Potenzial für eine durchgängige Softwareentwicklung unter Beweis gestellt. Obwohl bestehende Benchmarks sich in letzter Zeit von lokalisierter Code-Bearbeitung hin zur Neuerstellung von Projekten weiterentwickelt haben, bleiben sie auf strukturell vereinfachte Single-Stack-Anwendungen beschränkt. Folglich erfassen sie weder die heterogenen Umgebungen, das Full-Stack-Orchestrieren noch die systemische Komplexität realer Enterprise-Software-as-a-Service-(SaaS)-Systeme, was eine kritische Lücke bei der Bewertung von Agenten unter realistischen technischen Einschränkungen hinterlässt. Um diese Lücke zu schließen, stellen wir SaaSBench vor, den ersten speziell dafür entwickelten Benchmark, um die Grenzen von KI-Agenten im Bereich der Enterprise-SaaS-Entwicklung auszuloten. Mit 30 komplexen Aufgaben aus 6 SaaS-Domänen und 5.370 Validierungsknoten integriert er 8 Programmiersprachen, 6 Datenbanken und 13 Frameworks, um die Heterogenität realer Software präzise abzubilden. Darüber hinaus entwickeln wir ein abhängigkeitsbewusstes hybrides Bewertungsparadigma, das speziell auf komplexe Systeme mit langen Zeithorizonten und Mehrkomponentenkopplung zugeschnitten ist, und ermöglicht so eine granulare, reproduzierbare Bewertung. Entscheidend ist, dass unsere umfangreichen Experimente eine bemerkenswerte Erkenntnis zutage fördern: Der primäre Engpass für hochmoderne Agenten liegt nicht in der Erzeugung isolierter Codelogik, sondern in der erfolgreichen Konfiguration und Integration eines Mehrkomponentensystems. Über 95 % der Aufgabenfehler treten auf, bevor die Agenten überhaupt die tiefe Geschäftslogik erreichen, wobei Modelle oft übermütig werden und während der grundlegenden Systemeinrichtung vorzeitig abbrechen oder sich in ineffektiven Debugging-Schleifen verfangen. Wir hoffen, dass SaaSBench als praktische und herausfordernde Testumgebung dient, um die Entwicklung zuverlässiger, systemweiter Codierungsagenten voranzutreiben. Der Code ist verfügbar unter https://github.com/ShadeCloak/SaaSbench.

English

As autonomous coding agents become capable of handling increasingly long-horizon tasks, they have gradually demonstrated the potential to complete end-to-end software development. Although existing benchmarks have recently evolved from localized code editing to from-scratch project generation, they remain confined to structurally simplified, single-stack applications. Consequently, they fail to capture the heterogeneous environments, full-stack orchestration, and system-level complexity of real enterprise Software as a Service (SaaS) systems, leaving a critical gap in assessing agents under realistic engineering constraints. To fill this gap, we introduce SaaSBench, the first benchmark designed to explore the boundaries of AI agents in enterprise SaaS engineering. Spanning 30 complex tasks across 6 SaaS domains with 5,370 validation nodes, it incorporates 8 programming languages, 6 databases, and 13 frameworks to meticulously mirror real-world software heterogeneity. Furthermore, we design a dependency-aware hybrid evaluation paradigm tailored for complex systems with long horizons and multi-component coupling, enabling fine-grained, reproducible assessment. Crucially, our extensive experiments reveal a striking insight: the primary bottleneck for state-of-the-art agents is not generating isolated code logic, but successfully configuring and integrating a multi-component system. Over 95\% of task failures occur before agents even reach deep business logic, with models often falling victim to overconfidence and prematurely halting during foundational system setup, or getting trapped in ineffective debugging loops. We hope SaaSBench serves as a practical and challenging testbed to drive the evolution of reliable, system-level coding agents. The code is available at https://github.com/ShadeCloak/SaaSbench.