ChatPaper.aiChatPaper

SWE-WebDevBench: Evaluatie van Coderingsagent Applicatieplatforms als Virtuele Softwarebureaus

SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies

May 6, 2026
Auteurs: Siddhant Saxena, Nilesh Trivedi, Vinayaka Jyothi
cs.AI

Samenvatting

De opkomst van "vibe coding"-platforms, waar gebruikers applicaties beschrijven in natuurlijke taal en AI-agenten autonoom full-stack software genereren, heeft de behoefte gecreëerd aan een rigoureuze evaluatie die verder gaat dan code-level benchmarks. Om ze te beoordelen als virtuele softwareontwikkelingsbureaus op het gebied van het begrijpen van zakelijke vereisten, het nemen van architectuur-beslissingen, het schrijven van productiecode, het afhandelen van iteratieve wijzigingen en het waarborgen van bedrijfsgereedheid, introduceren we SWE-WebDev Bench, een evaluatieraamwerk met 68 metrieken, verdeeld over 25 primaire en 43 diagnostische metrieken in zeven groepen, georganiseerd langs drie dimensies: Interactiemodus (App Creation Request (ACR) vs. App Modification Request (AMR)), Bureau-perspectief (Product Manager (PM), Engineering, Ops) en Complexiteitsniveau (T4 multi-role SaaS, T5 AI-native). Onze evaluatie (zes platforms, drie domeinen, 18 evaluatiecellen) onthult vier terugkerende tekortkomingen in de huidige generatie AI-app-builders: (1) Een specificatieknelpunt, waarbij platforms rijke zakelijke vereisten comprimeren tot overgesimplificeerde technische plannen, (2) Een alomtegenwoordige ontkoppeling van frontend en backend, waarbij visueel verfijnde UI's afwezige of defecte backend-infrastructuur maskeren, (3) Een steile productiegereedheidskloof, waarbij geen enkel platform meer dan 60% scoort op engineeringkwaliteit en de menselijke inspanning na generatie aanzienlijk varieert tussen platforms, en (4) Wijdverspreide beveiligings- en infrastructuurfouten, waarbij geen enkel platform meer dan 65% Security Score haalt tegen een streefcijfer van 90% en de afhandeling van gelijktijdige verzoeken slechts 6% bedraagt. Deze observaties zijn beschrijvend voor onze steekproef en vereisen replicatie op grotere schaal om de algemene geldigheid vast te stellen. We geven SWE-WebDev Bench vrij als een community benchmark om dergelijke replicatie mogelijk te maken en platformbouwers te helpen deze hiaten te identificeren en aan te pakken. Code en benchmarkbronnen zijn beschikbaar op: https://github.com/snowmountainAi/webdevbench en https://webdevbench.com/.
English
The emergence of "vibe coding" platforms, where users describe applications in natural language and AI agents autonomously generate full-stack software, has created a need for rigorous evaluation beyond code-level benchmarks. In order to assess them as virtual software development agencies on understanding business requirements, making architectural decisions, writing production code, handling iterative modifications, and maintaining business readiness, we introduce SWE-WebDev Bench, a 68-metric evaluation framework spanning 25 primary and 43 diagnostic metrics across seven groups, organized along three dimensions: Interaction Mode (App Creation Request (ACR) vs. App Modification Request (AMR)), Agency Angle (Product Manager (PM), Engineering, Ops), and Complexity Tier (T4 multi-role SaaS, T5 AI-native). Our evaluation (six platforms, three domains, 18 evaluation cells) reveals four recurring shortcomings in the current generation of AI app builders: (1) A specification bottleneck, where platforms compress rich business requirements into oversimplified technical plans, (2) A pervasive frontend-backend decoupling, where visually polished UIs mask absent or broken backend infrastructure, (3) A steep production-readiness cliff, where no platform scores above 60% on engineering quality and post-generation human effort varies substantially across platforms and (4) Widespread security and infrastructure failures, with no platform exceeding 65% Security Score against a 90% target and concurrency handling as low as 6%. These observations are descriptive of our sample and require larger-scale replication to establish generality. We release SWE-WebDev Bench as a community benchmark to enable such replication and help platform builders identify and address these gaps. Code and benchmark resources are available at: https://github.com/snowmountainAi/webdevbench and https://webdevbench.com/.
PDF21May 8, 2026