Vision2Web : Un benchmark hiérarchique pour le développement visuel de sites web avec vérification par agent
Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification
March 27, 2026
Auteurs: Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang
cs.AI
Résumé
Les progrès récents des grands modèles de langage ont amélioré les capacités des agents de programmation, mais l'évaluation systématique du développement web complexe de bout en bout reste limitée. Pour combler cette lacune, nous présentons Vision2Web, un benchmark hiérarchique pour le développement visuel de sites web, couvrant la génération de code à partir d'interface utilisateur statique, la reproduction interactive d'interfaces multi-pages, jusqu'au développement full-stack à long terme. Le benchmark est construit à partir de sites web réels et comprend 193 tâches réparties dans 16 catégories, avec 918 images de prototypes et 1 255 cas de test. Pour supporter une évaluation flexible, approfondie et fiable, nous proposons un paradigme de vérification d'agents basé sur des workflows reposant sur deux composants complémentaires : un vérificateur d'agent d'interface graphique et un évaluateur basé sur un modèle visuel de langage. Nous évaluons plusieurs modèles de langage visuel instanciés sous différents frameworks d'agents de programmation, révélant d'importants écarts de performance à tous les niveaux de tâches, les modèles les plus avancés éprouvant encore des difficultés avec le développement full-stack.
English
Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.