MemGUI-Bench: Бенчмаркинг памяти мобильных GUI-агентов в динамических средах

Аннотация

Современные бенчмарки для мобильных GUI-агентов систематически не оценивают возможности памяти, содержа лишь 5,2–11,8% задач, связанных с памятью, и не включая оценку межсессионного обучения. Мы представляем MemGUI-Bench — комплексный бенчмарк с фокусом на память, использующий оценку pass@k и многоуровневую оценку LLM-as-judge. Наш вклад включает: (1) систематическую таксономию памяти, анализирующую 11 агентов пяти архитектур; (2) 128 задач в 26 приложениях, где 89,8% проверяют память через межвременное и межпространственное сохранение; (3) MemGUI-Eval — автоматизированный конвейер с прогрессивной проверкой и 7 иерархическими метриками; (4) оценку 11 современных агентов на основе исследовательских вопросов. Наши эксперименты выявили значительные дефициты памяти у всех оцениваемых систем, идентифицировали 5 характерных типов сбоев и позволили сформулировать 5 практических рекомендаций для проектирования. Все ресурсы, включая код, бенчмарк и результаты оценки, будут \textit{полностью открыты и постоянно поддерживаться} на https://lgy0404.github.io/MemGUI-Bench/.

English

Current mobile GUI agent benchmarks systematically fail to assess memory capabilities, with only 5.2-11.8% memory-related tasks and no cross-session learning evaluation. We introduce MemGUI-Bench, a comprehensive memory-centric benchmark with pass@k and staged LLM-as-judge evaluation. Our contributions include: (1) a systematic memory taxonomy analyzing 11 agents across 5 architectures; (2) 128 tasks across 26 applications where 89.8% challenge memory through cross-temporal and cross-spatial retention; (3) MemGUI-Eval, an automated pipeline with Progressive Scrutiny and 7 hierarchical metrics; and (4) RQ-driven assessment of 11 state-of-the-art agents. Our experiments reveal significant memory deficits across all evaluated systems, identify 5 distinct failure modes, and synthesize 5 actionable design implications. All resources including code, benchmark, and evaluation results will be \textit{fully open-sourced and continuously maintained} at https://lgy0404.github.io/MemGUI-Bench/.

MemGUI-Bench: Бенчмаркинг памяти мобильных GUI-агентов в динамических средах

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Аннотация

Support