ChatPaper.aiChatPaper

GEBench : Évaluation comparative des modèles de génération d'images en tant qu'environnements d'interface graphique

GEBench: Benchmarking Image Generation Models as GUI Environments

February 9, 2026
papers.authors: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI

papers.abstract

Les récents progrès des modèles de génération d'images ont permis la prédiction des états futurs des Interfaces Homme-Machine (IHM) basée sur des instructions utilisateur. Cependant, les benchmarks existants se concentrent principalement sur la fidélité visuelle dans des domaines généraux, laissant l'évaluation des transitions d'état et de la cohérence temporelle dans des contextes spécifiques aux IHM sous-explorée. Pour combler cette lacune, nous présentons GEBench, un benchmark complet pour évaluer l'interaction dynamique et la cohérence temporelle dans la génération d'IHM. GEBench comprend 700 échantillons soigneusement sélectionnés couvrant cinq catégories de tâches, incluant à la fois des interactions en une étape et des trajectoires multi-étapes dans des scénarios réels et fictifs, ainsi que la localisation de points d'ancrage. Pour soutenir une évaluation systématique, nous proposons GE-Score, une nouvelle métrique à cinq dimensions qui évalue la Réalisation de l'Objectif, la Logique d'Interaction, la Cohérence du Contenu, la Vraisemblance de l'Interface et la Qualité Visuelle. Des évaluations approfondies sur les modèles actuels indiquent que, bien qu'ils performent bien sur les transitions en une étape, ils éprouvent des difficultés significatives à maintenir la cohérence temporelle et l'ancrage spatial sur des séquences d'interaction plus longues. Nos résultats identifient l'interprétation des icônes, le rendu du texte et la précision de localisation comme des goulots d'étranglement critiques. Ce travail jette les bases d'une évaluation systématique et suggère des pistes prometteuses pour les recherches futures visant à construire des environnements génératifs d'IHM haute fidélité. Le code est disponible à l'adresse : https://github.com/stepfun-ai/GEBench.
English
Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.
PDF362February 11, 2026