ChatPaper.aiChatPaper

GEBench: Benchmarking von Bildgenerierungsmodellen als GUI-Umgebungen

GEBench: Benchmarking Image Generation Models as GUI Environments

February 9, 2026
papers.authors: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI

papers.abstract

Aktuelle Fortschritte bei Bildgenerierungsmodellen ermöglichen die Vorhersage zukünftiger Zustände grafischer Benutzeroberflächen (GUI) basierend auf Benutzeranweisungen. Bestehende Benchmarks konzentrieren sich jedoch hauptsächlich auf die allgemeine visuelle Qualität, wodurch die Bewertung von Zustandsübergängen und zeitlicher Kohärenz in GUI-spezifischen Kontexten untererforscht bleibt. Um diese Lücke zu schließen, stellen wir GEBench vor, einen umfassenden Benchmark zur Bewertung dynamischer Interaktionen und zeitlicher Kohärenz in der GUI-Generierung. GEBench umfasst 700 sorgfältig zusammengestellte Beispiele aus fünf Aufgabenkategorien, die sowohl Einzelschritt-Interaktionen als auch Mehrschritt-Trajektorien in realen und fiktiven Szenarien sowie die Lokalisierung von Referenzpunkten abdecken. Zur systematischen Evaluation schlagen wir GE-Score vor, eine neuartige fünfdimensionale Metrik, die Zielerreichung, Interaktionslogik, Inhaltskonsistenz, GUI-Plausibilität und visuelle Qualität bewertet. Umfangreiche Evaluationen aktueller Modelle zeigen, dass diese zwar gute Leistungen bei Einzelschritt-Übergängen erbringen, jedoch erhebliche Schwierigkeiten haben, zeitliche Kohärenz und räumliche Verankerung über längere Interaktionssequenzen aufrechtzuerhalten. Unsere Ergebnisse identifizieren die Ikoneninterpretation, Textdarstellung und Lokalisierungspräzision als kritische Engpässe. Diese Arbeit legt eine Grundlage für systematische Bewertungen und weist vielversprechende Richtungen für zukünftige Forschung zur Entwicklung hochwertiger generativer GUI-Umgebungen auf. Der Code ist verfügbar unter: https://github.com/stepfun-ai/GEBench.
English
Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.
PDF362February 11, 2026