Vision2Web: Un punto de referencia jerárquico para el desarrollo visual de sitios web con verificación por agente
Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification
March 27, 2026
Autores: Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje a gran escala han mejorado las capacidades de los agentes de codificación, sin embargo, la evaluación sistemática del desarrollo web complejo de extremo a extremo sigue siendo limitada. Para abordar esta brecha, presentamos Vision2Web, un benchmark jerárquico para el desarrollo visual de sitios web, que abarca desde la generación estática de código a partir de interfaz de usuario, la reproducción interactiva de frontends multipágina, hasta el desarrollo full-stack de sitios web de horizonte largo. El benchmark se construye a partir de sitios web del mundo real y comprende un total de 193 tareas en 16 categorías, con 918 imágenes de prototipos y 1.255 casos de prueba. Para apoyar una evaluación flexible, exhaustiva y confiable, proponemos un paradigma de verificación de agentes basado en flujos de trabajo que consta de dos componentes complementarios: un verificador de agente GUI y un juez basado en VLM. Evaluamos múltiples modelos de lenguaje visual instanciados bajo diferentes frameworks de agentes de codificación, revelando brechas de rendimiento sustanciales en todos los niveles de tarea, donde los modelos más avanzados aún presentan dificultades en el desarrollo full-stack.
English
Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.