MemGUI-Bench : Évaluation de la Mémoire des Agents d'Interface Graphique Mobile dans des Environnements Dynamiques

Résumé

Les benchmarks actuels pour agents mobiles d'interface graphique échouent systématiquement à évaluer les capacités mémorielles, avec seulement 5,2 à 11,8 % de tâches liées à la mémoire et aucune évaluation de l'apprentissage intersession. Nous présentons MemGUI-Bench, un benchmark complet centré sur la mémoire avec une évaluation pass@k et une évaluation échelonnée par LLM-comme-juge. Nos contributions incluent : (1) une taxonomie mémorielle systématique analysant 11 agents sur 5 architectures ; (2) 128 tâches réparties sur 26 applications où 89,8 % sollicitent la mémoire via la rétention trans-temporelle et trans-spatiale ; (3) MemGUI-Eval, un pipeline automatisé avec vérification progressive et 7 métriques hiérarchiques ; et (4) une évaluation basée sur des questions de recherche de 11 agents state-of-the-art. Nos expériences révèlent des déficits mémoriels significatifs dans tous les systèmes évalués, identifient 5 modes de défaillance distincts et synthétisent 5 implications de conception actionnables. Toutes les ressources, y compris le code, le benchmark et les résultats d'évaluation, seront \textit{entièrement open-source et continuellement maintenues} sur https://lgy0404.github.io/MemGUI-Bench/.

English

Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.

MemGUI-Bench : Évaluation de la Mémoire des Agents d'Interface Graphique Mobile dans des Environnements Dynamiques

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Résumé

Support