ChatPaper.aiChatPaper

IWR-Bench: LVLM이 사용자 상호작용 비디오로부터 인터랙티브 웹페이지를 재구성할 수 있을까?

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

September 29, 2025
저자: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI

초록

웹페이지-코드 변환 작업은 모델이 웹페이지의 시각적 표현을 이해하고 이에 상응하는 코드를 생성할 것을 요구합니다. 그러나 기존 벤치마크는 주로 정적 스크린샷-코드 변환 작업에 초점을 맞추어, 실제 웹 애플리케이션의 핵심 요소인 동적 상호작용을 간과해 왔습니다. 이러한 한계를 해결하기 위해, 본 논문은 비디오에서 인터랙티브 웹페이지 재구성을 평가하기 위한 새로운 벤치마크인 IWR-Bench를 소개합니다. IWR-Bench은 100개의 실제 웹사이트에서 선별된 113개의 작업으로 구성되며, 1,001개의 액션과 다양한 상호작용 복잡성(예: 웹 게임), 시각적 스타일, 도메인을 포함합니다. 표준 웹 개발 관행에 맞춰, 각 작업은 사용자 상호작용 비디오뿐만 아니라 크롤링된 모든 정적 자산(예: 이미지, 비디오)도 포함합니다. 이 벤치마크는 모델을 두 가지 근본적인 도전 과제에 대해 평가합니다: 비디오와 자산에서 상호작용 로직을 추론하기 위한 포괄적인 다중 모달 추론, 그리고 이 로직을 기능적 코드로 변환하기 위한 고급 코드 생성. 에이전트-판단자 프레임워크와 포괄적인 메트릭 시스템은 생성된 웹페이지의 기능적 정확성과 시각적 충실도를 자동으로 평가합니다. 28개의 LVLM에 대한 광범위한 실험은 중요한 도전 과제를 드러냅니다: 최고의 모델도 전체 점수 36.35%에 그치며, 기능적 정확성(24.39% IFS)은 시각적 충실도(64.25% VFS)에 비해 크게 뒤처집니다. 이러한 결과는 현재 모델들이 시간적 역학을 추론하고 이벤트 기반 로직을 합성하는 능력에 있어 중요한 한계를 보여주며, IWR-Bench을 비전-언어 연구의 도전적인 최전선으로 자리매김합니다. 벤치마크와 평가 코드는 공개될 예정입니다. 코드는 https://github.com/L-O-I/IWR-Bench에서 확인할 수 있습니다.
English
The webpage-to-code task requires models to understand visual representations of webpages and generate corresponding code. However, existing benchmarks primarily focus on static screenshot-to-code tasks, thereby overlooking the dynamic interactions fundamental to real-world web applications. To address this limitation, this paper introduces IWR-Bench, a novel benchmark for evaluating the capabilities of Large Vision-Language Models (LVLMs) in interactive webpage reconstruction from video. IWR-Bench comprises 113 meticulously curated tasks from 100 real-world websites, with 1,001 actions and featuring diverse interaction complexities (e.g., web games), visual styles, and domains. Aligning with standard web development practices, each task includes not only user interaction videos but also all crawled static assets (e.g., images, videos). This benchmark evaluates models on two fundamental challenges: comprehensive multi-modal reasoning to infer interaction logic from video and assets, and advanced code generation to translate this logic into functional code. An agent-as-a-judge framework with a comprehensive metric system automatically assesses the functional correctness and visual fidelity of generated webpages. Extensive experiments on 28 LVLMs reveal a significant challenge: the best model achieves an overall score of only 36.35%, as functional correctness (24.39% IFS) lags significantly behind visual fidelity (64.25% VFS). These results highlight critical limitations in current models' ability to reason about temporal dynamics and synthesize event-driven logic, establishing IWR-Bench as a challenging frontier for vision-language research. The benchmark and evaluation code will be made publicly available. Code is available at https://github.com/L-O-I/IWR-Bench.
PDF11September 30, 2025