ChatPaper.aiChatPaper

MemGUI-Bench: Benchmarking des Gedächtnisses mobiler GUI-Agenten in dynamischen Umgebungen

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

February 3, 2026
Autoren: Guangyi Liu, Pengxiang Zhao, Yaozhen Liang, Qinyi Luo, Shunye Tang, Yuxiang Chai, Weifeng Lin, Han Xiao, WenHao Wang, Siheng Chen, Zhengxi Lu, Gao Wu, Hao Wang, Liang Liu, Yong Liu
cs.AI

Zusammenfassung

Aktuelle Benchmarks für mobile GUI-Agenten bewerten Gedächtnisfähigkeiten systematisch unzureichend, da nur 5,2–11,8 % der Aufgaben gedächtnisbezogen sind und lernübergreifende Sitzungen nicht evaluiert werden. Wir stellen MemGUI-Bench vor, einen umfassenden, gedächtniszentrierten Benchmark mit pass@k und gestufter LLM-as-Judge-Evaluierung. Unsere Beiträge umfassen: (1) eine systematische Gedächtnistaxonomie zur Analyse von 11 Agenten über 5 Architekturen hinweg; (2) 128 Aufgaben in 26 Anwendungen, bei denen 89,8 % das Gedächtnis durch trans-temporale und trans-räumliche Beibehaltung fordern; (3) MemGUI-Eval, eine automatisierte Pipeline mit Progressiver Prüfung und 7 hierarchischen Metriken; sowie (4) eine forschungsfragengetriebene Bewertung von 11 state-of-the-art Agenten. Unsere Experimente zeigen erhebliche Gedächtnisdefizite bei allen evaluierten Systemen, identifizieren 5 spezifische Fehlermodi und leiten 5 umsetzbare Designimplikationen ab. Alle Ressourcen inklusive Code, Benchmark und Evaluierungsergebnisse werden unter https://lgy0404.github.io/MemGUI-Bench/ \textit{vollständig quelloffen und kontinuierlich gepflegt}.
English
Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.
PDF131March 16, 2026