IWR-Bench: Способны ли LVLM воссоздавать интерактивные веб-страницы на основе видео пользовательского взаимодействия?
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
September 29, 2025
Авторы: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI
Аннотация
Задача преобразования веб-страниц в код требует от моделей понимания визуальных представлений веб-страниц и генерации соответствующего кода. Однако существующие бенчмарки в основном сосредоточены на задачах преобразования статических скриншотов в код, тем самым упуская из виду динамические взаимодействия, которые являются основой реальных веб-приложений. Чтобы устранить это ограничение, данная работа представляет IWR-Bench — новый бенчмарк для оценки возможностей крупных визуально-языковых моделей (LVLMs) в интерактивном восстановлении веб-страниц из видео. IWR-Bench включает 113 тщательно отобранных задач с 100 реальных веб-сайтов, содержащих 1 001 действие и охватывающих разнообразные уровни сложности взаимодействий (например, веб-игры), визуальные стили и домены. В соответствии с общепринятыми практиками веб-разработки, каждая задача включает не только видео с пользовательскими взаимодействиями, но и все собранные статические ресурсы (например, изображения, видео). Этот бенчмарк оценивает модели по двум ключевым задачам: комплексному мультимодальному анализу для вывода логики взаимодействий из видео и ресурсов, а также продвинутой генерации кода для преобразования этой логики в функциональный код. Фреймворк "агент-как-судья" с комплексной системой метрик автоматически оценивает функциональную корректность и визуальное соответствие сгенерированных веб-страниц. Экстенсивные эксперименты на 28 LVLMs выявили значительную сложность: лучшая модель достигает общего балла всего 36,35%, при этом функциональная корректность (24,39% IFS) значительно отстает от визуального соответствия (64,25% VFS). Эти результаты подчеркивают критические ограничения современных моделей в способности анализировать временную динамику и синтезировать событийно-ориентированную логику, устанавливая IWR-Bench как сложный рубеж для исследований в области визуально-языковых моделей. Бенчмарк и код для оценки будут доступны публично. Код доступен по адресу: https://github.com/L-O-I/IWR-Bench.
English
The webpage-to-code task requires models to understand visual representations
of webpages and generate corresponding code. However, existing benchmarks
primarily focus on static screenshot-to-code tasks, thereby overlooking the
dynamic interactions fundamental to real-world web applications. To address
this limitation, this paper introduces IWR-Bench, a novel benchmark for
evaluating the capabilities of Large Vision-Language Models (LVLMs) in
interactive webpage reconstruction from video. IWR-Bench comprises 113
meticulously curated tasks from 100 real-world websites, with 1,001 actions and
featuring diverse interaction complexities (e.g., web games), visual styles,
and domains. Aligning with standard web development practices, each task
includes not only user interaction videos but also all crawled static assets
(e.g., images, videos). This benchmark evaluates models on two fundamental
challenges: comprehensive multi-modal reasoning to infer interaction logic from
video and assets, and advanced code generation to translate this logic into
functional code. An agent-as-a-judge framework with a comprehensive metric
system automatically assesses the functional correctness and visual fidelity of
generated webpages. Extensive experiments on 28 LVLMs reveal a significant
challenge: the best model achieves an overall score of only 36.35%, as
functional correctness (24.39% IFS) lags significantly behind visual fidelity
(64.25% VFS). These results highlight critical limitations in current models'
ability to reason about temporal dynamics and synthesize event-driven logic,
establishing IWR-Bench as a challenging frontier for vision-language research.
The benchmark and evaluation code will be made publicly available. Code is
available at https://github.com/L-O-I/IWR-Bench.