Vision2Web: Um Benchmark Hierárquico para Desenvolvimento Visual de Websites com Verificação por Agente

Resumo

Os recentes avanços em modelos de linguagem de grande escala melhoraram as capacidades de agentes de codificação, porém a avaliação sistemática do desenvolvimento complexo e integral de websites permanece limitada. Para preencher essa lacuna, apresentamos o Vision2Web, um benchmark hierárquico para desenvolvimento visual de websites, abrangendo desde a geração estática de código a partir de UI, a reprodução de frontends interativos com múltiplas páginas, até o desenvolvimento full-stack de longo horizonte. O benchmark é construído a partir de websites do mundo real e compreende um total de 193 tarefas em 16 categorias, com 918 imagens de protótipo e 1.255 casos de teste. Para apoiar uma avaliação flexível, abrangente e confiável, propomos um paradigma de verificação de agentes baseado em fluxo de trabalho, fundamentado em dois componentes complementares: um verificador de agente de interface gráfica (GUI) e um juiz baseado em Modelos de Linguagem Visual (VLM). Avaliamos múltiplos modelos de linguagem visual instanciados sob diferentes frameworks de agentes de codificação, revelando lacunas substanciais de desempenho em todos os níveis de tarefa, com os modelos state-of-the-art ainda apresentando dificuldades no desenvolvimento full-stack.

English

Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.