ChatPaper.aiChatPaper

SWE-WebDevBench: Оценка платформ агентов кодирования как виртуальных программных агентств

SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies

May 6, 2026
Авторы: Siddhant Saxena, Nilesh Trivedi, Vinayaka Jyothi
cs.AI

Аннотация

Появление платформ для «виб-кодинга», где пользователи описывают приложения на естественном языке, а ИИ-агенты автономно генерируют full-stack программное обеспечение, создало потребность в строгой оценке, выходящей за рамки бенчмарков уровня кода. Чтобы оценить их как виртуальные агентства разработки ПО по таким критериям, как понимание бизнес-требований, принятие архитектурных решений, написание продакшен-кода, обработка итеративных изменений и поддержание бизнес-готовности, мы представляем SWE-WebDev Bench — оценочный фреймворк из 68 метрик, охватывающий 25 первичных и 43 диагностических метрик, сгруппированных по семи категориям и организованных по трем измерениям: Режим взаимодействия (Запрос на создание приложения (ACR) vs. Запрос на модификацию приложения (AMR)), Роль агентства (Менеджер продукта (PM), Разработка, Операции) и Уровень сложности (T4: мультиролевое SaaS-решение, T5: AI-native). Наша оценка (шесть платформ, три домена, 18 оценочных ячеек) выявила четыре повторяющихся недостатка в текущем поколении AI-сборщиков приложений: (1) Спецификационный бутылочное горлышко, когда платформы сжимают богатые бизнес-требования в упрощенные технические планы, (2) Повсеместная развязка фронтенда и бэкенда, когда визуально отполированные интерфейсы маскируют отсутствующую или неработающую бэкенд-инфраструктуру, (3) Крутой обрыв производственной готовности, когда ни одна платформа не набирает более 60% по качеству инжиниринга, а объем пост-генерационных человеческих усилий существенно варьируется между платформами, и (4) Распространенные сбои безопасности и инфраструктуры, при этом ни одна платформа не превышает 65% по показателю безопасности против целевого значения 90%, а обработка параллелизма достигает всего 6%. Эти наблюдения описательны для нашей выборки и требуют масштабирования для установления общности. Мы публикуем SWE-WebDev Bench в качестве общедоступного бенчмарка, чтобы обеспечить такое масштабирование и помочь разработчикам платформ выявлять и устранять эти пробелы. Код и ресурсы бенчмарка доступны по адресам: https://github.com/snowmountainAi/webdevbench и https://webdevbench.com/.
English
The emergence of "vibe coding" platforms, where users describe applications in natural language and AI agents autonomously generate full-stack software, has created a need for rigorous evaluation beyond code-level benchmarks. In order to assess them as virtual software development agencies on understanding business requirements, making architectural decisions, writing production code, handling iterative modifications, and maintaining business readiness, we introduce SWE-WebDev Bench, a 68-metric evaluation framework spanning 25 primary and 43 diagnostic metrics across seven groups, organized along three dimensions: Interaction Mode (App Creation Request (ACR) vs. App Modification Request (AMR)), Agency Angle (Product Manager (PM), Engineering, Ops), and Complexity Tier (T4 multi-role SaaS, T5 AI-native). Our evaluation (six platforms, three domains, 18 evaluation cells) reveals four recurring shortcomings in the current generation of AI app builders: (1) A specification bottleneck, where platforms compress rich business requirements into oversimplified technical plans, (2) A pervasive frontend-backend decoupling, where visually polished UIs mask absent or broken backend infrastructure, (3) A steep production-readiness cliff, where no platform scores above 60% on engineering quality and post-generation human effort varies substantially across platforms and (4) Widespread security and infrastructure failures, with no platform exceeding 65% Security Score against a 90% target and concurrency handling as low as 6%. These observations are descriptive of our sample and require larger-scale replication to establish generality. We release SWE-WebDev Bench as a community benchmark to enable such replication and help platform builders identify and address these gaps. Code and benchmark resources are available at: https://github.com/snowmountainAi/webdevbench and https://webdevbench.com/.
PDF21May 8, 2026