MemGUI-Bench: Benchmarking des Gedächtnisses mobiler GUI-Agenten in dynamischen Umgebungen

Zusammenfassung

Aktuelle Benchmarks für mobile GUI-Agenten bewerten Gedächtnisfähigkeiten systematisch unzureichend, da nur 5,2–11,8 % der Aufgaben gedächtnisbezogen sind und lernübergreifende Sitzungen nicht evaluiert werden. Wir stellen MemGUI-Bench vor, einen umfassenden, gedächtniszentrierten Benchmark mit pass@k und gestufter LLM-as-Judge-Evaluierung. Unsere Beiträge umfassen: (1) eine systematische Gedächtnistaxonomie zur Analyse von 11 Agenten über 5 Architekturen hinweg; (2) 128 Aufgaben in 26 Anwendungen, bei denen 89,8 % das Gedächtnis durch trans-temporale und trans-räumliche Beibehaltung fordern; (3) MemGUI-Eval, eine automatisierte Pipeline mit Progressiver Prüfung und 7 hierarchischen Metriken; sowie (4) eine forschungsfragengetriebene Bewertung von 11 state-of-the-art Agenten. Unsere Experimente zeigen erhebliche Gedächtnisdefizite bei allen evaluierten Systemen, identifizieren 5 spezifische Fehlermodi und leiten 5 umsetzbare Designimplikationen ab. Alle Ressourcen inklusive Code, Benchmark und Evaluierungsergebnisse werden unter https://lgy0404.github.io/MemGUI-Bench/ \textit{vollständig quelloffen und kontinuierlich gepflegt}.

English

Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.

MemGUI-Bench: Benchmarking des Gedächtnisses mobiler GUI-Agenten in dynamischen Umgebungen

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Zusammenfassung

Support