MementoGUI: Обучение агентному мультимодальному управлению памятью для долгосрочных GUI-агентов

Аннотация

Недавние GUI-агенты достигли значительного прогресса в визуальной привязке и прогнозировании действий, однако они остаются нестабильными при выполнении долгосрочных задач, требующих поддержания состояния задачи при множестве переходов между интерфейсами. Существующие агенты обычно полагаются на сырое воспроизведение истории или только текстовую память, что либо перегружает модель избыточными скриншотами, либо отбрасывает локализованные визуальные свидетельства, необходимые для будущих решений. Для устранения этих ограничений мы представляем MementoGUI — подключаемую агентную структуру памяти, которая оснащает GUI-агентов на основе MLLM ядром MementoCore — обучаемым контроллером для онлайн-выбора, сжатия и извлечения памяти. Вместо того чтобы трактовать историю взаимодействий как фиксированный контекст, MementoGUI формулирует долгосрочное управление GUI как задачу онлайн-контроля памяти: рабочая память выборочно сохраняет релевантные задаче события интерфейса с текстовыми сводками и визуальными свидетельствами на уровне ROI, а эпизодическая память извлекает повторно используемые прошлые траектории с помощью обучаемого выбора релевантности. MementoCore модульно организует управление памятью в специализированные операторы для пошаговой обработки, сжатия памяти, эпизодической записи и эпизодического выбора, обеспечивая подключаемое расширение памяти без дообучения базового агента GUI. Мы также разрабатываем масштабируемый конвейер подготовки данных, преобразующий траектории использования компьютера в обучающие данные для контроллера памяти, представляем MementoGUI-Bench для оценки долгосрочного принятия решений в GUI-агентах и создаём метрики на основе MLLM для семантического сопоставления действий, прогресса задачи и согласованности памяти. Эксперименты на GUI-Odyssey, MM-Mind2Web и MementoGUI-Bench показывают, что MementoGUI последовательно улучшает GUI-агентов по сравнению с базовыми подходами без истории, с воспроизведением истории и только текстовой памятью, при этом увеличение размера ядра MementoCore дополнительно усиливает управление GUI с поддержкой памяти.

English

Recent GUI agents have made substantial progress in visual grounding and action prediction, yet they remain brittle in long-horizon tasks that require maintaining task state across many interface transitions. Existing agents typically rely on raw history replay or text-only memory, which either overwhelms the model with redundant screenshots or discards localized visual evidence needed for future decisions. To address these limitations, we introduce MementoGUI, a plug-in agentic memory framework that equips MLLM-based GUI agents with MementoCore, a learned controller for online memory selection, compression, and retrieval. Rather than treating interaction history as a fixed context, MementoGUI formulates long-horizon GUI control as an online memory-control problem: working memory selectively preserves task-relevant interface events with textual summaries and ROI-level visual evidence, while episodic memory retrieves reusable past trajectories through learned relevance selection. MementoCore modularizes memory control into specialized operators for step processing, memory compression, episodic writing, and episodic selection, enabling plug-in memory augmentation without finetuning the GUI agent backbone. We further develop a scalable data curation pipeline that converts computer-use trajectories into memory-controller training data, introduce MementoGUI-Bench for evaluating long-horizon decision-making in GUI agents, and design MLLM-based metrics for semantic action matching, task progress, and memory consistency. Experiments on GUI-Odyssey, MM-Mind2Web, and MementoGUI-Bench show that MementoGUI consistently improves GUI agents over no-history, history-replay, and text-only memory baselines, with larger MementoCore backbones further strengthening memory-augmented GUI control.