ChatPaper.aiChatPaper

MemGUI-Bench : Évaluation de la Mémoire des Agents d'Interface Graphique Mobile dans des Environnements Dynamiques

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

February 3, 2026
Auteurs: Guangyi Liu, Pengxiang Zhao, Yaozhen Liang, Qinyi Luo, Shunye Tang, Yuxiang Chai, Weifeng Lin, Han Xiao, WenHao Wang, Siheng Chen, Zhengxi Lu, Gao Wu, Hao Wang, Liang Liu, Yong Liu
cs.AI

Résumé

Les benchmarks actuels pour agents mobiles d'interface graphique échouent systématiquement à évaluer les capacités mémorielles, avec seulement 5,2 à 11,8 % de tâches liées à la mémoire et aucune évaluation de l'apprentissage intersession. Nous présentons MemGUI-Bench, un benchmark complet centré sur la mémoire avec une évaluation pass@k et une évaluation échelonnée par LLM-comme-juge. Nos contributions incluent : (1) une taxonomie mémorielle systématique analysant 11 agents sur 5 architectures ; (2) 128 tâches réparties sur 26 applications où 89,8 % sollicitent la mémoire via la rétention trans-temporelle et trans-spatiale ; (3) MemGUI-Eval, un pipeline automatisé avec vérification progressive et 7 métriques hiérarchiques ; et (4) une évaluation basée sur des questions de recherche de 11 agents state-of-the-art. Nos expériences révèlent des déficits mémoriels significatifs dans tous les systèmes évalués, identifient 5 modes de défaillance distincts et synthétisent 5 implications de conception actionnables. Toutes les ressources, y compris le code, le benchmark et les résultats d'évaluation, seront \textit{entièrement open-source et continuellement maintenues} sur https://lgy0404.github.io/MemGUI-Bench/.
English
Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.
PDF131March 16, 2026