IWR-Bench: Способны ли LVLM воссоздавать интерактивные веб-страницы на основе видео пользовательского взаимодействия?

Аннотация

Задача преобразования веб-страниц в код требует от моделей понимания визуальных представлений веб-страниц и генерации соответствующего кода. Однако существующие бенчмарки в основном сосредоточены на задачах преобразования статических скриншотов в код, тем самым упуская из виду динамические взаимодействия, которые являются основой реальных веб-приложений. Чтобы устранить это ограничение, данная работа представляет IWR-Bench — новый бенчмарк для оценки возможностей крупных визуально-языковых моделей (LVLMs) в интерактивном восстановлении веб-страниц из видео. IWR-Bench включает 113 тщательно отобранных задач с 100 реальных веб-сайтов, содержащих 1 001 действие и охватывающих разнообразные уровни сложности взаимодействий (например, веб-игры), визуальные стили и домены. В соответствии с общепринятыми практиками веб-разработки, каждая задача включает не только видео с пользовательскими взаимодействиями, но и все собранные статические ресурсы (например, изображения, видео). Этот бенчмарк оценивает модели по двум ключевым задачам: комплексному мультимодальному анализу для вывода логики взаимодействий из видео и ресурсов, а также продвинутой генерации кода для преобразования этой логики в функциональный код. Фреймворк "агент-как-судья" с комплексной системой метрик автоматически оценивает функциональную корректность и визуальное соответствие сгенерированных веб-страниц. Экстенсивные эксперименты на 28 LVLMs выявили значительную сложность: лучшая модель достигает общего балла всего 36,35%, при этом функциональная корректность (24,39% IFS) значительно отстает от визуального соответствия (64,25% VFS). Эти результаты подчеркивают критические ограничения современных моделей в способности анализировать временную динамику и синтезировать событийно-ориентированную логику, устанавливая IWR-Bench как сложный рубеж для исследований в области визуально-языковых моделей. Бенчмарк и код для оценки будут доступны публично. Код доступен по адресу: https://github.com/L-O-I/IWR-Bench.

English

The webpage-to-code task requires models to understand visual representations of webpages and generate corresponding code. However, existing benchmarks primarily focus on static screenshot-to-code tasks, thereby overlooking the dynamic interactions fundamental to real-world web applications. To address this limitation, this paper introduces IWR-Bench, a novel benchmark for evaluating the capabilities of Large Vision-Language Models (LVLMs) in interactive webpage reconstruction from video. IWR-Bench comprises 113 meticulously curated tasks from 100 real-world websites, with 1,001 actions and featuring diverse interaction complexities (e.g., web games), visual styles, and domains. Aligning with standard web development practices, each task includes not only user interaction videos but also all crawled static assets (e.g., images, videos). This benchmark evaluates models on two fundamental challenges: comprehensive multi-modal reasoning to infer interaction logic from video and assets, and advanced code generation to translate this logic into functional code. An agent-as-a-judge framework with a comprehensive metric system automatically assesses the functional correctness and visual fidelity of generated webpages. Extensive experiments on 28 LVLMs reveal a significant challenge: the best model achieves an overall score of only 36.35%, as functional correctness (24.39% IFS) lags significantly behind visual fidelity (64.25% VFS). These results highlight critical limitations in current models' ability to reason about temporal dynamics and synthesize event-driven logic, establishing IWR-Bench as a challenging frontier for vision-language research. The benchmark and evaluation code will be made publicly available. Code is available at https://github.com/L-O-I/IWR-Bench.

IWR-Bench: Способны ли LVLM воссоздавать интерактивные веб-страницы на основе видео пользовательского взаимодействия?

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

Аннотация

Support