SWE-WebDevBench: 코딩 에이전트 애플리케이션 플랫폼을 가상 소프트웨어 에이전시로 평가하기
SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies
May 6, 2026
저자: Siddhant Saxena, Nilesh Trivedi, Vinayaka Jyothi
cs.AI
초록
"바이브 코딩" 플랫폼의 등장, 즉 사용자가 자연어로 애플리케이션을 설명하면 AI 에이전트가 자율적으로 풀스택 소프트웨어를 생성하는 환경이 도래함에 따라 코드 수준 벤치마크를 넘어선 엄격한 평가의 필요성이 대두되었습니다. 이러한 플랫폼을 비즈니스 요구사항 이해, 아키텍처 결정 수립, 프로덕션 코드 작성, 반복적 수정 처리, 비즈니스 준비 상태 유지 측면에서 가상 소프트웨어 개발 에이전시로 평가하기 위해 우리는 SWE-WebDev Bench를 소개합니다. 이는 68개 항목의 평가 프레임워크로, 3가지 차원(상호작용 모드: 앱 생성 요청(ACR) 대 앱 수정 요청(AMR), 에이전시 관점: 제품 관리자(PM), 엔지니어링, 운영, 복잡도 계층: T4 다중 역할 SaaS, T5 AI 네이티브)에 따라 구성된 7개 그룹 내 25개 주요 메트릭과 43개 진단 메트릭으로 구성됩니다.
우리의 평가(6개 플랫폼, 3개 도메인, 18개 평가 셀)는 현재 세대 AI 앱 빌더에서 반복적으로 나타나는 네 가지 주요 결함을 보여줍니다: (1) 풍부한 비즈니스 요구사항이 지나치게 단순화된 기술 계획으로 압축되는 명세서 병목 현상, (2) 시각적으로 정교한 UI가 존재하지 않거나 손상된 백엔드 인프라를 가리는 만연한 프론트엔드-백엔드 분리 현상, (3) 어느 플랫폼도 엔지니어링 품질에서 60%를 넘지 못하고 생성 후 필요 인력 투입량이 플랫폼마다 현저히 차이나는 가파른 프로덕션 준비도 격차, (4) 90% 목표 대비 보안 점수 65%를 초과하는 플랫폼이 없고 동시성 처리율이 6%에 불과한 등 광범위한 보안 및 인프라 실패. 이러한 관찰은 우리 샘플에 대한 기술적 내용이며 보편성을 입증하기 위해서는更大規模의 검증이 필요합니다. 우리는 SWE-WebDev Bench를 커뮤니티 벤치마크로 공개하여 이러한 검증을 가능하게 하고 플랫폼 개발자들이 이러한 격차를 식별하고 해결하는 데 도움을 주고자 합니다.
코드 및 벤치마크 리소스는 다음에서 확인할 수 있습니다: https://github.com/snowmountainAi/webdevbench 및 https://webdevbench.com/.
English
The emergence of "vibe coding" platforms, where users describe applications in natural language and AI agents autonomously generate full-stack software, has created a need for rigorous evaluation beyond code-level benchmarks. In order to assess them as virtual software development agencies on understanding business requirements, making architectural decisions, writing production code, handling iterative modifications, and maintaining business readiness, we introduce SWE-WebDev Bench, a 68-metric evaluation framework spanning 25 primary and 43 diagnostic metrics across seven groups, organized along three dimensions: Interaction Mode (App Creation Request (ACR) vs. App Modification Request (AMR)), Agency Angle (Product Manager (PM), Engineering, Ops), and Complexity Tier (T4 multi-role SaaS, T5 AI-native).
Our evaluation (six platforms, three domains, 18 evaluation cells) reveals four recurring shortcomings in the current generation of AI app builders: (1) A specification bottleneck, where platforms compress rich business requirements into oversimplified technical plans, (2) A pervasive frontend-backend decoupling, where visually polished UIs mask absent or broken backend infrastructure, (3) A steep production-readiness cliff, where no platform scores above 60% on engineering quality and post-generation human effort varies substantially across platforms and (4) Widespread security and infrastructure failures, with no platform exceeding 65% Security Score against a 90% target and concurrency handling as low as 6%. These observations are descriptive of our sample and require larger-scale replication to establish generality. We release SWE-WebDev Bench as a community benchmark to enable such replication and help platform builders identify and address these gaps.
Code and benchmark resources are available at: https://github.com/snowmountainAi/webdevbench and https://webdevbench.com/.