GEBench: GUI 환경으로서의 이미지 생성 모델 벤치마킹
GEBench: Benchmarking Image Generation Models as GUI Environments
February 9, 2026
저자: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI
초록
최근 이미지 생성 모델의 발전으로 사용자 지시에 기반한 미래 그래픽 사용자 인터페이스(GUI) 상태 예측이 가능해졌습니다. 그러나 기존 벤치마크는 주로 일반 영역의 시각적 정확도에 초점을 맞추고 있어, GUI 특화 컨텍스트에서의 상태 전환 및 시간적 일관성 평가는 충분히 연구되지 않았습니다. 이러한 격차를 해결하기 위해 본 논문에서는 GUI 생성의 동적 상호작용 및 시간적 일관성 평가를 위한 포괄적인 벤치마크인 GEBench를 소개합니다. GEBench는 현실 및 가상 시나리오, 그리고 접지점 위치 지정을 아우르는 5개 작업 범주에 걸쳐 신중하게 선별된 700개 샘플로 구성되며, 단일 단계 상호작용과 다중 단계 궤적을 모두 포함합니다. 체계적인 평가를 지원하기 위해 목표 달성, 상호작용 논리, 내용 일관성, UI 타당성, 시각적 품질의 5가지 차원을 평가하는 새로운 지표인 GE-Score를 제안합니다. 최신 모델에 대한 포괄적 평가 결과, 단일 단계 전환에서는 우수한 성능을 보이지만, 긴 상호작용 시퀀스에 걸쳐 시간적 일관성과 공간적 접지점 유지에는 상당한 어려움을 겪는 것으로 나타났습니다. 본 연구의 결과는 아이콘 해석, 텍스트 렌더링, 위치 지정 정밀도를 주요 병목 현상으로 규명합니다. 이 연구는 체계적 평가의 기반을 마련하고, 고충실도 생성형 GUI 환경 구축을 위한 향후 연구 방향을 제시합니다. 코드는 https://github.com/stepfun-ai/GEBench에서 확인할 수 있습니다.
English
Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.