SWE-WebDevBench: Bewertung von Coding-Agent-Anwendungsplattformen als virtuelle Software-Agenturen

Zusammenfassung

Das Aufkommen von "Vibe-Coding"-Plattformen, bei denen Benutzer Anwendungen in natürlicher Sprache beschreiben und KI-Agenten eigenständig Full-Stack-Software generieren, hat die Notwendigkeit einer rigorosen Evaluation geschaffen, die über reine Code-Benchmarks hinausgeht. Um sie als virtuelle Softwareentwicklungsagenturen zu bewerten – hinsichtlich des Verständnisses von Geschäftsanforderungen, architektonischen Entscheidungen, der Erstellung von Produktionscode, der Handhabung iterativer Änderungen und der Gewährleistung von Produktionsreife – führen wir SWE-WebDev Bench ein. Dies ist ein Evaluierungsframework mit 68 Metriken, das 25 primäre und 43 diagnostische Metriken umfasst, die sieben Gruppen zugeordnet und entlang drei Dimensionen organisiert sind: Interaktionsmodus (App-Erstellungsanfrage (ACR) vs. App-Änderungsanfrage (AMR)), Agentur-Perspektive (Product Manager (PM), Engineering, Betrieb) und Komplexitätsstufe (T4 Multi-Role-SaaS, T5 AI-nativ). Unsere Evaluation (sechs Plattformen, drei Domänen, 18 Evaluierungszellen) deckt vier wiederkehrende Schwachstellen der aktuellen Generation von KI-App-Buildern auf: (1) Einen Spezifikationsengpass, bei dem Plattformen umfangreiche Geschäftsanforderungen in übermäßig vereinfachte technische Pläne komprimieren, (2) Eine durchgängige Entkopplung von Frontend und Backend, bei der optisch ansprechende Benutzeroberflächen fehlende oder defekte Backend-Infrastruktur verschleiern, (3) Eine steile Klippe der Produktionsreife, bei der keine Plattform über 60 % bei der Engineering-Qualität erreicht und der menschliche Nachbearbeitungsaufwand nach der Generierung zwischen den Plattformen erheblich variiert, und (4) Weitverbreitete Sicherheits- und Infrastrukturausfälle, wobei keine Plattform einen Sicherheits-Score von über 65 % gegenüber einem Zielwert von 90 % erreicht und die Behandlung von Nebenläufigkeit bis auf 6 % abfällt. Diese Beobachtungen beschreiben unsere Stichprobe und erfordern eine Replikation in größerem Maßstab, um ihre Allgemeingültigkeit zu bestätigen. Wir veröffentlichen SWE-WebDev Bench als Community-Benchmark, um eine solche Replikation zu ermöglichen und Plattformentwicklern zu helfen, diese Lücken zu identifizieren und zu schließen. Code und Benchmark-Ressourcen sind verfügbar unter: https://github.com/snowmountainAi/webdevbench und https://webdevbench.com/.

English

The emergence of "vibe coding" platforms, where users describe applications in natural language and AI agents autonomously generate full-stack software, has created a need for rigorous evaluation beyond code-level benchmarks. In order to assess them as virtual software development agencies on understanding business requirements, making architectural decisions, writing production code, handling iterative modifications, and maintaining business readiness, we introduce SWE-WebDev Bench, a 68-metric evaluation framework spanning 25 primary and 43 diagnostic metrics across seven groups, organized along three dimensions: Interaction Mode (App Creation Request (ACR) vs. App Modification Request (AMR)), Agency Angle (Product Manager (PM), Engineering, Ops), and Complexity Tier (T4 multi-role SaaS, T5 AI-native). Our evaluation (six platforms, three domains, 18 evaluation cells) reveals four recurring shortcomings in the current generation of AI app builders: (1) A specification bottleneck, where platforms compress rich business requirements into oversimplified technical plans, (2) A pervasive frontend-backend decoupling, where visually polished UIs mask absent or broken backend infrastructure, (3) A steep production-readiness cliff, where no platform scores above 60% on engineering quality and post-generation human effort varies substantially across platforms and (4) Widespread security and infrastructure failures, with no platform exceeding 65% Security Score against a 90% target and concurrency handling as low as 6%. These observations are descriptive of our sample and require larger-scale replication to establish generality. We release SWE-WebDev Bench as a community benchmark to enable such replication and help platform builders identify and address these gaps. Code and benchmark resources are available at: https://github.com/snowmountainAi/webdevbench and https://webdevbench.com/.

SWE-WebDevBench: Bewertung von Coding-Agent-Anwendungsplattformen als virtuelle Software-Agenturen

SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies

Zusammenfassung

Support