GEBench: Avaliação Comparativa de Modelos de Geração de Imagem como Ambientes de Interface Gráfica

Resumo

Os recentes avanços em modelos de geração de imagens permitiram a previsão de estados futuros de Interface Gráfica do Utilizador (GUI) com base em instruções do utilizador. No entanto, os benchmarks existentes focam-se principalmente na fidelidade visual de domínio geral, deixando a avaliação das transições de estado e da coerência temporal em contextos específicos de GUI subexplorada. Para colmatar esta lacuna, introduzimos o GEBench, um benchmark abrangente para avaliar a interação dinâmica e a coerência temporal na geração de GUI. O GEBench compreende 700 amostras cuidadosamente selecionadas abrangendo cinco categorias de tarefas, cobrindo tanto interações de passo único como trajetórias de múltiplos passos em cenários do mundo real e ficcionais, bem como a localização de pontos de ancoragem. Para suportar uma avaliação sistemática, propomos o GE-Score, uma nova métrica de cinco dimensões que avalia: Realização do Objetivo, Lógica de Interação, Consistência de Conteúdo, Plausibilidade da UI e Qualidade Visual. Avaliações extensivas em modelos atuais indicam que, embora estes apresentem bons desempenhos em transições de passo único, lutam significativamente para manter a coerência temporal e a ancoragem espacial em sequências de interação mais longas. As nossas descobertas identificam a interpretação de ícones, a renderização de texto e a precisão de localização como estrangulamentos críticos. Este trabalho fornece uma base para a avaliação sistemática e sugere direções promissoras para pesquisas futuras visando a construção de ambientes generativos de GUI de alta fidelidade. O código está disponível em: https://github.com/stepfun-ai/GEBench.

English

Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.