GEBench: Benchmarking dei Modelli di Generazione di Immagini come Ambienti GUI
GEBench: Benchmarking Image Generation Models as GUI Environments
February 9, 2026
Autori: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI
Abstract
I recenti progressi nei modelli di generazione di immagini hanno reso possibile la previsione di stati futuri dell'interfaccia utente grafica (GUI) basandosi sulle istruzioni dell'utente. Tuttavia, i benchmark esistenti si concentrano principalmente sulla fedeltà visiva in domini generali, lasciando sottovalutata la valutazione delle transizioni di stato e della coerenza temporale in contesti specifici per le GUI. Per colmare questa lacuna, introduciamo GEBench, un benchmark completo per valutare l'interazione dinamica e la coerenza temporale nella generazione di GUI. GEBench comprende 700 campioni accuratamente selezionati che abbracciano cinque categorie di attività, coprendo sia interazioni a passaggio singolo che traiettorie multi-step attraverso scenari reali e fittizi, oltre alla localizzazione dei punti di ancoraggio. Per supportare una valutazione sistematica, proponiamo GE-Score, una nuova metrica a cinque dimensioni che valuta il Raggiungimento dell'Obiettivo, la Logica d'Interazione, la Coerenza dei Contenuti, la Plausibilità dell'UI e la Qualità Visiva. Valutazioni estese sui modelli attuali indicano che, sebbene essi performino bene su transizioni a passaggio singolo, incontrano notevoli difficoltà nel mantenere la coerenza temporale e l'ancoraggio spaziale su sequenze d'interazione più lunghe. Le nostre scoperte identificano l'interpretazione delle icone, il rendering del testo e la precisione di localizzazione come colli di bottiglia critici. Questo lavoro getta le basi per una valutazione sistematica e suggerisce direzioni promettenti per la ricerca futura verso la costruzione di ambienti GUI generativi ad alta fedeltà. Il codice è disponibile all'indirizzo: https://github.com/stepfun-ai/GEBench.
English
Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.