MemGUI-Bench: Benchmarking van het Geheugen van Mobiele GUI-agenten in Dynamische Omgevingen

Samenvatting

Huidige benchmarks voor mobiele GUI-agenten slagen er systematisch in om geheugenvaardigheden te evalueren, met slechts 5,2-11,8% geheugengerelateerde taken en geen evaluatie van leren over sessies heen. Wij introduceren MemGUI-Bench, een uitgebreide geheugengerichte benchmark met pass@k en gefaseerde LLM-as-judge-evaluatie. Onze bijdragen omvatten: (1) een systematische geheugentaxonomie die 11 agenten over 5 architecturen analyseert; (2) 128 taken over 26 applicaties waarin 89,8% het geheugen uitdagen door retentie over tijd en ruimte heen; (3) MemGUI-Eval, een geautomatiseerde pijplijn met Progressieve Scrutiny en 7 hiërarchische metrieken; en (4) RQ-gedreven beoordeling van 11 state-of-the-art agenten. Onze experimenten tonen significante geheugentekorten aan bij alle geëvalueerde systemen, identificeren 5 verschillende faalmodi en synthetiseren 5 praktische ontwerpimplicaties. Alle bronnen inclusief code, benchmark en evaluatieresultaten worden \textit{volledig open source gemaakt en continu onderhouden} op https://lgy0404.github.io/MemGUI-Bench/.

English

Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.

MemGUI-Bench: Benchmarking van het Geheugen van Mobiele GUI-agenten in Dynamische Omgevingen

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Samenvatting

Support