GEBench: Бенчмаркинг моделей генерации изображений как GUI-сред
GEBench: Benchmarking Image Generation Models as GUI Environments
February 9, 2026
Авторы: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI
Аннотация
Последние достижения в области моделей генерации изображений позволили прогнозировать будущие состояния графического пользовательского интерфейса (GUI) на основе пользовательских инструкций. Однако существующие бенчмарки в основном сосредоточены на визуальном качестве в общих областях, оставляя недоисследованной оценку переходов между состояниями и временной согласованности в контекстах, специфичных для GUI. Для устранения этого пробела мы представляем GEBench — комплексный бенчмарк для оценки динамического взаимодействия и временной согласованности при генерации GUI. GEBench включает 700 тщательно отобранных примеров, охватывающих пять категорий задач, включая как одношаговые взаимодействия, так и многошаговые траектории в реалистичных и вымышленных сценариях, а также локализацию опорных точек. Для систематической оценки мы предлагаем GE-Score — новую пятимерную метрику, оценивающую Достижение цели, Логику взаимодействия, Согласованность содержания, Правдоподобие интерфейса и Визуальное качество. Масштабные оценки современных моделей показывают, что, хотя они хорошо справляются с одношаговыми переходами, они значительно затрудняются в поддержании временной согласованности и пространственной привязки в длинных последовательностях взаимодействий. Наши результаты выявляют интерпретацию иконок, рендеринг текста и точность локализации в качестве ключевых узких мест. Данная работа закладывает основу для систематической оценки и указывает перспективные направления для будущих исследований в области создания высококачественных генеративных сред GUI. Код доступен по адресу: https://github.com/stepfun-ai/GEBench.
English
Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.