GEBench: GUI環境としての画像生成モデルベンチマーク
GEBench: Benchmarking Image Generation Models as GUI Environments
February 9, 2026
著者: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI
要旨
画像生成モデルの最近の進歩により、ユーザー指示に基づいた将来のグラフィカルユーザーインターフェース(GUI)状態の予測が可能になってきました。しかし、既存のベンチマークは主に一般領域の視覚的忠実度に焦点を当てており、GUI特有の文脈における状態遷移や時間的一貫性の評価は十分に検討されていません。この課題を解決するため、我々はGUI生成における動的インタラクションと時間的一貫性を評価する包括的ベンチマークであるGEBenchを提案します。GEBenchは5つのタスクカテゴリにわたる700の注意深く選別されたサンプルで構成され、現実世界と架空のシナリオにおける単一ステップのインタラクションと多段階の軌道、ならびにグラウンディングポイントの位置特定を網羅しています。
体系的評価を支援するため、目標達成度、インタラクション論理、内容の一貫性、UIの妥当性、視覚的品質の5次元で評価する新しい指標GE-Scoreを提案します。現行モデルに対する大規模な評価により、単一ステップ遷移では良好な性能を示すものの、長いインタラクション系列における時間的一貫性と空間的グラウンディングの維持に大きな課題があることが明らかになりました。我々の分析結果は、アイコン解釈、テキストレンダリング、位置特定精度が重要なボトルネックであることを示しています。本研究は体系的な評価の基盤を提供し、高忠実度の生成型GUI環境構築に向けた将来研究の有望な方向性を示唆します。コードは以下で公開されています:https://github.com/stepfun-ai/GEBench
English
Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.