Vision2Web: Ein hierarchischer Benchmark für die visuelle Webentwicklung mit Agentenverifikation

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen haben die Fähigkeiten von Coding-Agents verbessert, doch eine systematische Bewertung komplexer, end-to-end Website-Entwicklung bleibt begrenzt. Um diese Lücke zu schließen, stellen wir Vision2Web vor, einen hierarchischen Benchmark für visuelle Website-Entwicklung, der von statischer UI-zu-Code-Generierung über interaktive Multi-Page-Frontend-Reproduktion bis hin zu langfristiger Full-Stack-Website-Entwicklung reicht. Der Benchmark basiert auf realen Websites und umfasst insgesamt 193 Aufgaben aus 16 Kategorien mit 918 Prototypenbildern und 1.255 Testfällen. Um eine flexible, gründliche und zuverlässige Bewertung zu ermöglichen, schlagen wir ein workflow-basiertes Agenten-Verifikationsparadigma vor, das auf zwei komplementären Komponenten basiert: einem GUI-Agenten-Verifizierer und einem VLM-basierten Bewertungssystem. Wir evaluieren mehrere visuelle Sprachmodelle, die unter verschiedenen Coding-Agent-Frameworks instanziiert wurden, und zeigen erhebliche Leistungsunterschiede auf allen Aufgabenniveaus auf, wobei state-of-the-art-Modelle bei der Full-Stack-Entwicklung weiterhin Schwierigkeiten haben.

English

Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible, thorough and reliable evaluation, we propose workflow-based agent verification paradigm based on two complementary components: a GUI agent verifier and a VLM-based judge. We evaluate multiple visual language models instantiated under different coding-agent frameworks, revealing substantial performance gaps at all task levels, with state-of-the-art models still struggling on full-stack development.

Vision2Web: Ein hierarchischer Benchmark für die visuelle Webentwicklung mit Agentenverifikation

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Zusammenfassung

Support