ChatPaper.aiChatPaper

MemGUI-Bench: Avaliação da Memória de Agentes de Interface Gráfica Móvel em Ambientes Dinâmicos

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

February 3, 2026
Autores: Guangyi Liu, Pengxiang Zhao, Yaozhen Liang, Qinyi Luo, Shunye Tang, Yuxiang Chai, Weifeng Lin, Han Xiao, WenHao Wang, Siheng Chen, Zhengxi Lu, Gao Wu, Hao Wang, Liang Liu, Yong Liu
cs.AI

Resumo

Os atuais benchmarks para agentes de GUI móveis falham sistematicamente em avaliar capacidades de memória, apresentando apenas 5,2-11,8% de tarefas relacionadas à memória e nenhuma avaliação de aprendizagem entre sessões. Apresentamos o MemGUI-Bench, um benchmark abrangente centrado na memória com avaliação pass@k e avaliação escalonada por LLM-como-juiz. Nossas contribuições incluem: (1) uma taxonomia sistemática de memória analisando 11 agentes em 5 arquiteturas; (2) 128 tarefas em 26 aplicações onde 89,8% desafiam a memória através de retenção cross-temporal e cross-espacial; (3) MemGUI-Eval, um pipeline automatizado com Escrutínio Progressivo e 7 métricas hierárquicas; e (4) avaliação baseada em questões de pesquisa de 11 agentes state-of-the-art. Nossos experimentos revelam deficits significativos de memória em todos os sistemas avaliados, identificam 5 modos de falha distintos e sintetizam 5 implicações de projeto acionáveis. Todos os recursos, incluindo código, benchmark e resultados de avaliação, serão \textit{completamente open-source e continuamente mantidos} em https://lgy0404.github.io/MemGUI-Bench/.
English
Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.
PDF131March 31, 2026