Vision2Web: Een Hiërarchische Benchmark voor Visuele Websiteontwikkeling met Agentverificatie

Samenvatting

Recente vooruitgang in grote taalmodellen heeft de mogelijkheden van codeeragentschappen verbeterd, maar een systematische evaluatie van complexe, end-to-end website-ontwikkeling blijft beperkt. Om deze leemte op te vullen, introduceren we Vision2Web, een hiërarchische benchmark voor visuele website-ontwikkeling, die zich uitstrekt van statische UI-naar-code-generatie, interactieve multi-pagina frontend-reproductie, tot langetermijn full-stack website-ontwikkeling. De benchmark is opgebouwd uit real-world websites en omvat in totaal 193 taken over 16 categorieën, met 918 prototype-afbeeldingen en 1.255 testgevallen. Om een flexibele, grondige en betrouwbare evaluatie te ondersteunen, stellen we een op werkstromen gebaseerd verificatieparadigma voor agentschappen voor, gebaseerd op twee complementaire componenten: een GUI-agentverificateur en een op VLM gebaseerde beoordelaar. We evalueren meerdere visuele taalmodellen geïnstantieerd onder verschillende codeeragent-frameworken, wat aanzienlijke prestatiekloonen op alle taakniveaus onthult, waarbij state-of-the-art modellen nog steeds moeite hebben met full-stack ontwikkeling.

English

Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.

Vision2Web: Een Hiërarchische Benchmark voor Visuele Websiteontwikkeling met Agentverificatie

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Samenvatting

Support