ChatPaper.aiChatPaper

IWR-Bench: Können LVLMs interaktive Webseiten aus einem Benutzerinteraktionsvideo rekonstruieren?

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

September 29, 2025
papers.authors: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI

papers.abstract

Die Aufgabe, Webseiten in Code zu übersetzen, erfordert von Modellen, dass sie visuelle Darstellungen von Webseiten verstehen und entsprechenden Code generieren. Bestehende Benchmarks konzentrieren sich jedoch hauptsächlich auf statische Screenshot-zu-Code-Aufgaben und vernachlässigen dabei die dynamischen Interaktionen, die für reale Webanwendungen grundlegend sind. Um diese Einschränkung zu überwinden, stellt dieses Papier IWR-Bench vor, einen neuartigen Benchmark zur Bewertung der Fähigkeiten von Large Vision-Language Models (LVLMs) bei der interaktiven Rekonstruktion von Webseiten aus Videos. IWR-Bench umfasst 113 sorgfältig kuratierte Aufgaben von 100 realen Websites, mit 1.001 Aktionen und einer Vielzahl von Interaktionskomplexitäten (z.B. Webspiele), visuellen Stilen und Domänen. In Übereinstimmung mit den Standardpraktiken der Webentwicklung enthält jede Aufgabe nicht nur Benutzerinteraktionsvideos, sondern auch alle gecrawlten statischen Assets (z.B. Bilder, Videos). Dieser Benchmark bewertet Modelle anhand von zwei grundlegenden Herausforderungen: umfassendes multimodales Schließen, um die Interaktionslogik aus Videos und Assets abzuleiten, und fortgeschrittene Codegenerierung, um diese Logik in funktionalen Code zu übersetzen. Ein Agent-as-a-Judge-Framework mit einem umfassenden Metriksystem bewertet automatisch die funktionale Korrektheit und visuelle Treue der generierten Webseiten. Umfangreiche Experimente mit 28 LVLMs offenbaren eine erhebliche Herausforderung: Das beste Modell erreicht eine Gesamtpunktzahl von nur 36,35 %, da die funktionale Korrektheit (24,39 % IFS) deutlich hinter der visuellen Treue (64,25 % VFS) zurückbleibt. Diese Ergebnisse verdeutlichen kritische Einschränkungen in der Fähigkeit aktueller Modelle, zeitliche Dynamiken zu verstehen und ereignisgesteuerte Logik zu synthetisieren, und etablieren IWR-Bench als eine herausfordernde Grenze für die Vision-Language-Forschung. Der Benchmark und der Evaluationscode werden öffentlich zugänglich gemacht. Der Code ist verfügbar unter https://github.com/L-O-I/IWR-Bench.
English
The webpage-to-code task requires models to understand visual representations of webpages and generate corresponding code. However, existing benchmarks primarily focus on static screenshot-to-code tasks, thereby overlooking the dynamic interactions fundamental to real-world web applications. To address this limitation, this paper introduces IWR-Bench, a novel benchmark for evaluating the capabilities of Large Vision-Language Models (LVLMs) in interactive webpage reconstruction from video. IWR-Bench comprises 113 meticulously curated tasks from 100 real-world websites, with 1,001 actions and featuring diverse interaction complexities (e.g., web games), visual styles, and domains. Aligning with standard web development practices, each task includes not only user interaction videos but also all crawled static assets (e.g., images, videos). This benchmark evaluates models on two fundamental challenges: comprehensive multi-modal reasoning to infer interaction logic from video and assets, and advanced code generation to translate this logic into functional code. An agent-as-a-judge framework with a comprehensive metric system automatically assesses the functional correctness and visual fidelity of generated webpages. Extensive experiments on 28 LVLMs reveal a significant challenge: the best model achieves an overall score of only 36.35%, as functional correctness (24.39% IFS) lags significantly behind visual fidelity (64.25% VFS). These results highlight critical limitations in current models' ability to reason about temporal dynamics and synthesize event-driven logic, establishing IWR-Bench as a challenging frontier for vision-language research. The benchmark and evaluation code will be made publicly available. Code is available at https://github.com/L-O-I/IWR-Bench.
PDF11September 30, 2025