MemGUI-Bench: Evaluación de la Memoria de Agentes de Interfaz Gráfica Móvil en Entornos Dinámicos

Resumen

Los puntos de referencia actuales para agentes de GUI móviles fallan sistemáticamente en evaluar las capacidades de memoria, con solo un 5,2-11,8% de tareas relacionadas con la memoria y ninguna evaluación de aprendizaje entre sesiones. Presentamos MemGUI-Bench, un punto de referencia integral centrado en la memoria con evaluación pass@k y evaluación escalonada mediante LLM-como-juez. Nuestras contribuciones incluyen: (1) una taxonomía sistemática de la memoria que analiza 11 agentes en 5 arquitecturas; (2) 128 tareas en 26 aplicaciones donde el 89,8% desafían la memoria mediante retención cross-temporal y cross-espacial; (3) MemGUI-Eval, una canalización automatizada con Escrutinio Progresivo y 7 métricas jerárquicas; y (4) evaluación basada en preguntas de investigación de 11 agentes de vanguardia. Nuestros experimentos revelan déficits significativos de memoria en todos los sistemas evaluados, identifican 5 modos de fallo distintos y sintetizan 5 implicaciones de diseño accionables. Todos los recursos, incluidos el código, el punto de referencia y los resultados de evaluación, estarán \textit{completamente disponibles como código abierto y se mantendrán continuamente} en https://lgy0404.github.io/MemGUI-Bench/.

English

Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.