ChatPaper.aiChatPaper

MemGUI-Bench: Benchmarking van het Geheugen van Mobiele GUI-agenten in Dynamische Omgevingen

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

February 3, 2026
Auteurs: Guangyi Liu, Pengxiang Zhao, Yaozhen Liang, Qinyi Luo, Shunye Tang, Yuxiang Chai, Weifeng Lin, Han Xiao, WenHao Wang, Siheng Chen, Zhengxi Lu, Gao Wu, Hao Wang, Liang Liu, Yong Liu
cs.AI

Samenvatting

Huidige benchmarks voor mobiele GUI-agenten slagen er systematisch in om geheugenvaardigheden te evalueren, met slechts 5,2-11,8% geheugengerelateerde taken en geen evaluatie van leren over sessies heen. Wij introduceren MemGUI-Bench, een uitgebreide geheugengerichte benchmark met pass@k en gefaseerde LLM-as-judge-evaluatie. Onze bijdragen omvatten: (1) een systematische geheugentaxonomie die 11 agenten over 5 architecturen analyseert; (2) 128 taken over 26 applicaties waarin 89,8% het geheugen uitdagen door retentie over tijd en ruimte heen; (3) MemGUI-Eval, een geautomatiseerde pijplijn met Progressieve Scrutiny en 7 hiërarchische metrieken; en (4) RQ-gedreven beoordeling van 11 state-of-the-art agenten. Onze experimenten tonen significante geheugentekorten aan bij alle geëvalueerde systemen, identificeren 5 verschillende faalmodi en synthetiseren 5 praktische ontwerpimplicaties. Alle bronnen inclusief code, benchmark en evaluatieresultaten worden \textit{volledig open source gemaakt en continu onderhouden} op https://lgy0404.github.io/MemGUI-Bench/.
English
Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.
PDF131March 16, 2026