SWE-WebDevBench : Évaluation des plateformes d'agents de codage en tant qu'agences logicielles virtuelles
SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies
May 6, 2026
Auteurs: Siddhant Saxena, Nilesh Trivedi, Vinayaka Jyothi
cs.AI
Résumé
L'émergence de plateformes de « programmation par ambiance » (vibe coding), où les utilisateurs décrivent des applications en langage naturel et des agents IA génèrent de manière autonome des logiciels full-stack, a créé un besoin d'évaluation rigoureuse au-delà des benchmarks au niveau du code. Afin de les évaluer en tant qu'agences virtuelles de développement logiciel sur leur compréhension des besoins métier, leur prise de décisions architecturales, l'écriture de code de production, la gestion des modifications itératives et le maintien de la préparation opérationnelle, nous présentons SWE-WebDev Bench, un cadre d'évaluation à 68 métriques couvrant 25 métriques principales et 43 métriques diagnostiques réparties en sept groupes, organisé selon trois dimensions : le Mode d'Interaction (Demande de Création d'Application (DCA) vs. Demande de Modification d'Application (DMA)), l'Angle de l'Agence (Chef de Produit (CP), Ingénierie, Opérations), et le Niveau de Complexité (T4 SaaS multi-rôles, T5 IA-native).
Notre évaluation (six plateformes, trois domaines, 18 cellules d'évaluation) révèle quatre lacunes récurrentes dans la génération actuelle de constructeurs d'applications IA : (1) Un goulot d'étranglement de spécification, où les plateformes compressent des besoins métier riches en plans techniques excessivement simplifiés, (2) Un découplage persistant entre le frontend et le backend, où des interfaces utilisateur visuellement soignées masquent une infrastructure backend absente ou défaillante, (3) Une falaise abrupte de la préparation à la production, où aucune plateforme ne dépasse 60 % sur la qualité d'ingénierie et l'effort humain post-génération varie considérablement selon les plateformes, et (4) Des défaillances généralisées en matière de sécurité et d'infrastructure, avec un Score de Sécurité ne dépassant pas 65 % pour aucune plateforme contre un objectif de 90 %, et une gestion de la concurrence pouvant descendre jusqu'à 6 %. Ces observations sont descriptives de notre échantillon et nécessitent une réplication à plus grande échelle pour établir leur généralité. Nous publions SWE-WebDev Bench en tant que benchmark communautaire pour permettre une telle réplication et aider les constructeurs de plateformes à identifier et combler ces lacunes.
Le code et les ressources du benchmark sont disponibles aux adresses suivantes : https://github.com/snowmountainAi/webdevbench et https://webdevbench.com/.
English
The emergence of "vibe coding" platforms, where users describe applications in natural language and AI agents autonomously generate full-stack software, has created a need for rigorous evaluation beyond code-level benchmarks. In order to assess them as virtual software development agencies on understanding business requirements, making architectural decisions, writing production code, handling iterative modifications, and maintaining business readiness, we introduce SWE-WebDev Bench, a 68-metric evaluation framework spanning 25 primary and 43 diagnostic metrics across seven groups, organized along three dimensions: Interaction Mode (App Creation Request (ACR) vs. App Modification Request (AMR)), Agency Angle (Product Manager (PM), Engineering, Ops), and Complexity Tier (T4 multi-role SaaS, T5 AI-native).
Our evaluation (six platforms, three domains, 18 evaluation cells) reveals four recurring shortcomings in the current generation of AI app builders: (1) A specification bottleneck, where platforms compress rich business requirements into oversimplified technical plans, (2) A pervasive frontend-backend decoupling, where visually polished UIs mask absent or broken backend infrastructure, (3) A steep production-readiness cliff, where no platform scores above 60% on engineering quality and post-generation human effort varies substantially across platforms and (4) Widespread security and infrastructure failures, with no platform exceeding 65% Security Score against a 90% target and concurrency handling as low as 6%. These observations are descriptive of our sample and require larger-scale replication to establish generality. We release SWE-WebDev Bench as a community benchmark to enable such replication and help platform builders identify and address these gaps.
Code and benchmark resources are available at: https://github.com/snowmountainAi/webdevbench and https://webdevbench.com/.