ChatPaper.aiChatPaper

Vision2Web: Een Hiërarchische Benchmark voor Visuele Websiteontwikkeling met Agentverificatie

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

March 27, 2026
Auteurs: Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang
cs.AI

Samenvatting

Recente vooruitgang in grote taalmodellen heeft de mogelijkheden van codeeragentschappen verbeterd, maar een systematische evaluatie van complexe, end-to-end website-ontwikkeling blijft beperkt. Om deze leemte op te vullen, introduceren we Vision2Web, een hiërarchische benchmark voor visuele website-ontwikkeling, die zich uitstrekt van statische UI-naar-code-generatie, interactieve multi-pagina frontend-reproductie, tot langetermijn full-stack website-ontwikkeling. De benchmark is opgebouwd uit real-world websites en omvat in totaal 193 taken over 16 categorieën, met 918 prototype-afbeeldingen en 1.255 testgevallen. Om een flexibele, grondige en betrouwbare evaluatie te ondersteunen, stellen we een op werkstromen gebaseerd verificatieparadigma voor agentschappen voor, gebaseerd op twee complementaire componenten: een GUI-agentverificateur en een op VLM gebaseerde beoordelaar. We evalueren meerdere visuele taalmodellen geïnstantieerd onder verschillende codeeragent-frameworken, wat aanzienlijke prestatiekloonen op alle taakniveaus onthult, waarbij state-of-the-art modellen nog steeds moeite hebben met full-stack ontwikkeling.
English
Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.
PDF322April 3, 2026