Vision2Web: Un Benchmark Gerarchico per lo Sviluppo Visivo di Siti Web con Verifica Agente

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni hanno migliorato le capacità degli agenti di programmazione, ma una valutazione sistematica dello sviluppo complesso e end-to-end di siti web rimane limitata. Per colmare questa lacuna, introduciamo Vision2Web, un benchmark gerarchico per lo sviluppo visivo di siti web, che spazia dalla generazione statica di codice da interfaccia utente, alla riproduzione interattiva di frontend multi-pagina, fino allo sviluppo full-stack di siti web a lungo orizzonte. Il benchmark è costruito a partire da siti web reali e comprende un totale di 193 task across 16 categorie, con 918 immagini prototipo e 1.255 casi di test. Per supportare una valutazione flessibile, approfondita e affidabile, proponiamo un paradigma di verifica dell'agente basato su workflow, fondato su due componenti complementari: un verificatore dell'agente GUI e un giudice basato su VLM. Valutiamo molteplici modelli linguistici visivi istanziati sotto diversi framework di agenti di programazione, rivelando divari prestazionali sostanziali a tutti i livelli di task, con i modelli allo stato dell'arte che continuano a incontrare difficoltà nello sviluppo full-stack.

English

Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.

Vision2Web: Un Benchmark Gerarchico per lo Sviluppo Visivo di Siti Web con Verifica Agente

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Abstract

Support