SaaSBench: Explorando os Limites dos Agentes de Codificação na Engenharia de SaaS Empresarial de Longo Horizonte

Resumo

À medida que agentes autônomos de codificação se tornam capazes de lidar com tarefas de horizonte cada vez mais longo, eles gradualmente demonstraram potencial para completar o desenvolvimento de software ponta a ponta. Embora os benchmarks existentes tenham evoluído recentemente da edição localizada de código para a geração de projetos do zero, eles ainda se restringem a aplicações estruturalmente simplificadas e de pilha única. Consequentemente, não capturam os ambientes heterogêneos, a orquestração full-stack e a complexidade em nível de sistema dos sistemas reais de Software como Serviço (SaaS) empresariais, deixando uma lacuna crítica na avaliação de agentes sob restrições realistas de engenharia. Para preencher essa lacuna, apresentamos o SaaSBench, o primeiro benchmark projetado para explorar os limites dos agentes de IA na engenharia de SaaS empresarial. Abrangendo 30 tarefas complexas em 6 domínios de SaaS, com 5.370 nós de validação, ele incorpora 8 linguagens de programação, 6 bancos de dados e 13 frameworks para espelhar meticulosamente a heterogeneidade real do software. Além disso, projetamos um paradigma de avaliação híbrido ciente de dependências, adaptado para sistemas complexos com horizontes longos e acoplamento multicomponente, permitindo uma avaliação granular e reproduzível. Crucialmente, nossos extensos experimentos revelam uma percepção marcante: o principal gargalo para agentes de última geração não é gerar lógica de código isolada, mas configurar e integrar com sucesso um sistema multicomponente. Mais de 95% das falhas nas tarefas ocorrem antes mesmo de os agentes atingirem a lógica de negócios profunda, com modelos frequentemente sendo vítimas de excesso de confiança e parando prematuramente durante a configuração fundamental do sistema, ou ficando presos em loops ineficazes de depuração. Esperamos que o SaaSBench sirva como um ambiente de teste prático e desafiador para impulsionar a evolução de agentes de codificação confiáveis em nível de sistema. O código está disponível em https://github.com/ShadeCloak/SaaSbench.

English

As autonomous coding agents become capable of handling increasingly long-horizon tasks, they have gradually demonstrated the potential to complete end-to-end software development. Although existing benchmarks have recently evolved from localized code editing to from-scratch project generation, they remain confined to structurally simplified, single-stack applications. Consequently, they fail to capture the heterogeneous environments, full-stack orchestration, and system-level complexity of real enterprise Software as a Service (SaaS) systems, leaving a critical gap in assessing agents under realistic engineering constraints. To fill this gap, we introduce SaaSBench, the first benchmark designed to explore the boundaries of AI agents in enterprise SaaS engineering. Spanning 30 complex tasks across 6 SaaS domains with 5,370 validation nodes, it incorporates 8 programming languages, 6 databases, and 13 frameworks to meticulously mirror real-world software heterogeneity. Furthermore, we design a dependency-aware hybrid evaluation paradigm tailored for complex systems with long horizons and multi-component coupling, enabling fine-grained, reproducible assessment. Crucially, our extensive experiments reveal a striking insight: the primary bottleneck for state-of-the-art agents is not generating isolated code logic, but successfully configuring and integrating a multi-component system. Over 95\% of task failures occur before agents even reach deep business logic, with models often falling victim to overconfidence and prematurely halting during foundational system setup, or getting trapped in ineffective debugging loops. We hope SaaSBench serves as a practical and challenging testbed to drive the evolution of reliable, system-level coding agents. The code is available at https://github.com/ShadeCloak/SaaSbench.