ChatPaper.aiChatPaper

Vision2Web: Иерархический эталон для визуальной веб-разработки с проверкой агента

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

March 27, 2026
Авторы: Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang
cs.AI

Аннотация

Последние достижения в области больших языковых моделей повысили возможности кодирующих агентов, однако систематическая оценка сложной, сквозной разработки веб-сайтов остается ограниченной. Чтобы восполнить этот пробел, мы представляем Vision2Web — иерархический бенчмарк для визуальной разработки веб-сайтов, охватывающий задачи от генерации кода по статическому UI до воспроизведения интерактивного многостраничного фронтенда и долгосрочной полнофункциональной разработки. Бенчмарк создан на основе реальных веб-сайтов и включает в себя 193 задачи по 16 категориям, с 918 изображениями прототипов и 1255 тестовыми случаями. Для поддержки гибкой, тщательной и надежной оценки мы предлагаем парадигму верификации агентов на основе рабочего процесса, состоящую из двух взаимодополняющих компонентов: верификатора с графическим интерфейсом и арбитра на основе визуальной языковой модели. Мы оценили несколько визуальных языковых моделей, реализованных в рамках различных платформ для кодирующих агентов, и выявили значительный разрыв в производительности на всех уровнях задач, причем даже современные модели испытывают трудности с полнофункциональной разработкой.
English
Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.
PDF322April 3, 2026