SaaSBench : Explorer les limites des agents de codage dans l'ingénierie SaaS d'entreprise à long horizon
SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering
May 17, 2026
Auteurs: Qingnan Ren, Shun Zou, Shiting Huang, Ziao Zhang, Kou Shi, Zhen Fang, Yiming Zhao, Yu Zeng, Qisheng Su, Lin Chen, Yong Wang, Zehui Chen, Xiangxiang Chu, Feng Zhao
cs.AI
Résumé
Alors que les agents de codage autonomes deviennent capables de gérer des tâches à horizon de plus en plus long, ils ont progressivement démontré leur potentiel à réaliser un développement logiciel de bout en bout. Bien que les référentiels existants aient récemment évolué, passant de l'édition localisée de code à la génération de projets à partir de zéro, ils restent confinés à des applications à pile unique et structurellement simplifiées. Par conséquent, ils ne parviennent pas à capturer les environnements hétérogènes, l'orchestration de la pile complète et la complexité au niveau système des véritables systèmes SaaS (Software as a Service) d'entreprise, laissant un vide critique dans l'évaluation des agents dans des conditions d'ingénierie réalistes. Pour combler ce vide, nous présentons SaaSBench, le premier référentiel conçu pour explorer les limites des agents d'IA dans l'ingénierie SaaS d'entreprise. Couvrant 30 tâches complexes dans 6 domaines SaaS avec 5 370 nœuds de validation, il intègre 8 langages de programmation, 6 bases de données et 13 frameworks pour refléter minutieusement l'hétérogénéité logicielle du monde réel. De plus, nous concevons un paradigme d'évaluation hybride tenant compte des dépendances, adapté aux systèmes complexes à long horizon et à couplage multi-composants, permettant une évaluation fine et reproductible. Surtout, nos expériences approfondies révèlent une observation frappante : le principal goulet d'étranglement pour les agents de pointe n'est pas la génération de logique de code isolée, mais la configuration et l'intégration réussies d'un système multi-composants. Plus de 95 % des échecs de tâches surviennent avant même que les agents n'atteignent la logique métier profonde, les modèles étant souvent victimes d'un excès de confiance et s'arrêtant prématurément lors de la configuration système fondamentale, ou se retrouvant piégés dans des boucles de débogage inefficaces. Nous espérons que SaaSBench servira de banc d'essai pratique et stimulant pour favoriser l'évolution d'agents de codage fiables au niveau système. Le code est disponible à l'adresse https://github.com/ShadeCloak/SaaSbench.
English
As autonomous coding agents become capable of handling increasingly long-horizon tasks, they have gradually demonstrated the potential to complete end-to-end software development. Although existing benchmarks have recently evolved from localized code editing to from-scratch project generation, they remain confined to structurally simplified, single-stack applications. Consequently, they fail to capture the heterogeneous environments, full-stack orchestration, and system-level complexity of real enterprise Software as a Service (SaaS) systems, leaving a critical gap in assessing agents under realistic engineering constraints. To fill this gap, we introduce SaaSBench, the first benchmark designed to explore the boundaries of AI agents in enterprise SaaS engineering. Spanning 30 complex tasks across 6 SaaS domains with 5,370 validation nodes, it incorporates 8 programming languages, 6 databases, and 13 frameworks to meticulously mirror real-world software heterogeneity. Furthermore, we design a dependency-aware hybrid evaluation paradigm tailored for complex systems with long horizons and multi-component coupling, enabling fine-grained, reproducible assessment. Crucially, our extensive experiments reveal a striking insight: the primary bottleneck for state-of-the-art agents is not generating isolated code logic, but successfully configuring and integrating a multi-component system. Over 95\% of task failures occur before agents even reach deep business logic, with models often falling victim to overconfidence and prematurely halting during foundational system setup, or getting trapped in ineffective debugging loops. We hope SaaSBench serves as a practical and challenging testbed to drive the evolution of reliable, system-level coding agents. The code is available at https://github.com/ShadeCloak/SaaSbench.