ChatPaper.aiChatPaper

SWE-WebDevBench: Evaluación de Plataformas de Agentes de Codificación como Agencias de Software Virtuales

SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies

May 6, 2026
Autores: Siddhant Saxena, Nilesh Trivedi, Vinayaka Jyothi
cs.AI

Resumen

La aparición de plataformas de "codificación por ambiente", donde los usuarios describen aplicaciones en lenguaje natural y los agentes de IA generan software de pila completa de forma autónoma, ha creado la necesidad de una evaluación rigurosa que vaya más allá de los puntos de referencia a nivel de código. Para evaluarlas como agencias virtuales de desarrollo de software en cuanto a la comprensión de requisitos empresariales, la toma de decisiones arquitectónicas, la escritura de código de producción, el manejo de modificaciones iterativas y el mantenimiento de la preparación operativa, presentamos SWE-WebDev Bench, un marco de evaluación de 68 métricas que abarca 25 métricas primarias y 43 diagnósticas en siete grupos, organizado en tres dimensiones: Modo de Interacción (Solicitud de Creación de Aplicación (ACR) vs. Solicitud de Modificación de Aplicación (AMR)), Perspectiva de la Agencia (Gerente de Producto (PM), Ingeniería, Operaciones) y Nivel de Complejidad (T4 SaaS multirol, T5 Nativo para IA). Nuestra evaluación (seis plataformas, tres dominios, 18 celdas de evaluación) revela cuatro deficiencias recurrentes en la generación actual de creadores de aplicaciones de IA: (1) Un cuello de botella en la especificación, donde las plataformas comprimen requisitos empresariales complejos en planes técnicos simplificados en exceso, (2) Un desacoplamiento generalizado entre el frontend y el backend, donde interfaces de usuario visualmente pulidas enmascaran una infraestructura de backend ausente o defectuosa, (3) Un precipicio pronunciado en la preparación para producción, donde ninguna plataforma supera el 60% en calidad de ingeniería y el esfuerzo humano posterior a la generación varía sustancialmente entre plataformas, y (4) Fallos generalizados en seguridad e infraestructura, sin que ninguna plataforma supere el 65% en Puntuación de Seguridad frente a un objetivo del 90% y con un manejo de concurrencia tan bajo como el 6%. Estas observaciones son descriptivas de nuestra muestra y requieren una replicación a mayor escala para establecer su generalidad. Publicamos SWE-WebDev Bench como un punto de referencia comunitario para permitir dicha replicación y ayudar a los desarrolladores de plataformas a identificar y abordar estas brechas. El código y los recursos del benchmark están disponibles en: https://github.com/snowmountainAi/webdevbench y https://webdevbench.com/.
English
The emergence of "vibe coding" platforms, where users describe applications in natural language and AI agents autonomously generate full-stack software, has created a need for rigorous evaluation beyond code-level benchmarks. In order to assess them as virtual software development agencies on understanding business requirements, making architectural decisions, writing production code, handling iterative modifications, and maintaining business readiness, we introduce SWE-WebDev Bench, a 68-metric evaluation framework spanning 25 primary and 43 diagnostic metrics across seven groups, organized along three dimensions: Interaction Mode (App Creation Request (ACR) vs. App Modification Request (AMR)), Agency Angle (Product Manager (PM), Engineering, Ops), and Complexity Tier (T4 multi-role SaaS, T5 AI-native). Our evaluation (six platforms, three domains, 18 evaluation cells) reveals four recurring shortcomings in the current generation of AI app builders: (1) A specification bottleneck, where platforms compress rich business requirements into oversimplified technical plans, (2) A pervasive frontend-backend decoupling, where visually polished UIs mask absent or broken backend infrastructure, (3) A steep production-readiness cliff, where no platform scores above 60% on engineering quality and post-generation human effort varies substantially across platforms and (4) Widespread security and infrastructure failures, with no platform exceeding 65% Security Score against a 90% target and concurrency handling as low as 6%. These observations are descriptive of our sample and require larger-scale replication to establish generality. We release SWE-WebDev Bench as a community benchmark to enable such replication and help platform builders identify and address these gaps. Code and benchmark resources are available at: https://github.com/snowmountainAi/webdevbench and https://webdevbench.com/.
PDF21May 8, 2026