MemGUI-Bench: Бенчмаркинг памяти мобильных GUI-агентов в динамических средах
MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments
February 3, 2026
Авторы: Guangyi Liu, Pengxiang Zhao, Yaozhen Liang, Qinyi Luo, Shunye Tang, Yuxiang Chai, Weifeng Lin, Han Xiao, WenHao Wang, Siheng Chen, Zhengxi Lu, Gao Wu, Hao Wang, Liang Liu, Yong Liu
cs.AI
Аннотация
Современные бенчмарки для мобильных GUI-агентов систематически не оценивают возможности памяти, содержа лишь 5,2–11,8% задач, связанных с памятью, и не включая оценку межсессионного обучения. Мы представляем MemGUI-Bench — комплексный бенчмарк с фокусом на память, использующий оценку pass@k и многоуровневую оценку LLM-as-judge. Наш вклад включает: (1) систематическую таксономию памяти, анализирующую 11 агентов пяти архитектур; (2) 128 задач в 26 приложениях, где 89,8% проверяют память через межвременное и межпространственное сохранение; (3) MemGUI-Eval — автоматизированный конвейер с прогрессивной проверкой и 7 иерархическими метриками; (4) оценку 11 современных агентов на основе исследовательских вопросов. Наши эксперименты выявили значительные дефициты памяти у всех оцениваемых систем, идентифицировали 5 характерных типов сбоев и позволили сформулировать 5 практических рекомендаций для проектирования. Все ресурсы, включая код, бенчмарк и результаты оценки, будут \textit{полностью открыты и постоянно поддерживаться} на https://lgy0404.github.io/MemGUI-Bench/.
English
Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.