ChatPaper.aiChatPaper

GEBench: Evaluación Comparativa de Modelos de Generación de Imágenes como Entornos GUI

GEBench: Benchmarking Image Generation Models as GUI Environments

February 9, 2026
Autores: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI

Resumen

Los recientes avances en modelos de generación de imágenes han permitido predecir estados futuros de Interfaces Gráficas de Usuario (GUI) basándose en instrucciones del usuario. Sin embargo, los benchmarks existentes se centran principalmente en la fidelidad visual del dominio general, dejando subexplorada la evaluación de transiciones de estado y coherencia temporal en contextos específicos de GUI. Para abordar esta brecha, presentamos GEBench, un benchmark integral para evaluar la interacción dinámica y la coherencia temporal en la generación de GUI. GEBench comprende 700 muestras cuidadosamente seleccionadas que abarcan cinco categorías de tareas, cubriendo tanto interacciones de un solo paso como trayectorias multi-paso a través de escenarios realistas y ficticios, así como la localización de puntos de anclaje. Para apoyar la evaluación sistemática, proponemos GE-Score, una novedosa métrica de cinco dimensiones que evalúa: Logro de Objetivos, Lógica de Interacción, Consistencia de Contenido, Plausibilidad de la Interfaz y Calidad Visual. Evaluaciones exhaustivas en modelos actuales indican que, aunque funcionan bien en transiciones de un solo paso, tienen dificultades significativas para mantener la coherencia temporal y el anclaje espacial en secuencias de interacción más largas. Nuestros hallazgos identifican la interpretación de iconos, el renderizado de texto y la precisión de localización como cuellos de botella críticos. Este trabajo proporciona una base para la evaluación sistemática y sugiere direcciones prometedoras para futuras investigaciones hacia la construcción de entornos generativos de GUI de alta fidelidad. El código está disponible en: https://github.com/stepfun-ai/GEBench.
English
Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.
PDF362February 11, 2026