MementoGUI: Lernen agentischer multimodaler Gedächtnissteuerung für Langzeit-GUI-Agenten

Zusammenfassung

Aktuelle GUI-Agenten haben bei der visuellen Grundierung und Handlungsvorhersage erhebliche Fortschritte erzielt, bleiben jedoch bei langfristigen Aufgaben, die die Aufrechterhaltung des Aufgabenstatus über viele Schnittstellenübergänge hinweg erfordern, fragil. Bisherige Agenten stützen sich typischerweise auf das rohe Abspielen des Verlaufs oder auf einen reinen Textspeicher, was entweder das Modell mit redundanten Bildschirmaufnahmen überlastet oder lokalisierte visuelle Belege verwirft, die für künftige Entscheidungen erforderlich sind. Um diese Einschränkungen zu beheben, stellen wir MementoGUI vor, ein Plug-in-Agenten-Speicherframework, das MLLM-basierte GUI-Agenten mit MementoCore ausstattet – einem gelernten Controller für die Online-Speicherauswahl, -kompression und den -abruf. Anstatt die Interaktionshistorie als festen Kontext zu behandeln, formuliert MementoGUI die langfristige GUI-Steuerung als Online-Speicherkontrollproblem: Der Arbeitsspeicher bewahrt aufgabenrelevante Schnittstellenereignisse selektiv mit textuellen Zusammenfassungen und visuellen Belegen auf ROI-Ebene, während das episodische Gedächtnis durch gelernte Relevanzauswahl wiederverwendbare vergangene Trajektorien abruft. MementoCore modularisiert die Speicherkontrolle in spezialisierte Operatoren für Schrittverarbeitung, Speicherkompression, episodisches Schreiben und episodische Auswahl, was eine Plug-in-Speichererweiterung ohne Feinabstimmung des GUI-Agenten-Rückgrats ermöglicht. Wir entwickeln ferner eine skalierbare Datenkuratierungspipeline, die Computernutzungstrajektorien in Trainingsdaten für den Speichercontroller umwandelt, führen MementoGUI-Bench zur Bewertung der langfristigen Entscheidungsfindung in GUI-Agenten ein und entwerfen MLLM-basierte Metriken für semantisches Handlungsabgleichen, Aufgabenfortschritt und Speicherkonsistenz. Experimente auf GUI-Odyssey, MM-Mind2Web und MementoGUI-Bench zeigen, dass MementoGUI GUI-Agenten durchgängig gegenüber Basislinien ohne Verlauf, mit Verlaufsabspielung und mit reinem Textspeicher verbessert, wobei größere MementoCore-Rückgratmodelle die speichergestützte GUI-Steuerung weiter verstärken.

English

Recent GUI agents have made substantial progress in visual grounding and action prediction, yet they remain brittle in long-horizon tasks that require maintaining task state across many interface transitions. Existing agents typically rely on raw history replay or text-only memory, which either overwhelms the model with redundant screenshots or discards localized visual evidence needed for future decisions. To address these limitations, we introduce MementoGUI, a plug-in agentic memory framework that equips MLLM-based GUI agents with MementoCore, a learned controller for online memory selection, compression, and retrieval. Rather than treating interaction history as a fixed context, MementoGUI formulates long-horizon GUI control as an online memory-control problem: working memory selectively preserves task-relevant interface events with textual summaries and ROI-level visual evidence, while episodic memory retrieves reusable past trajectories through learned relevance selection. MementoCore modularizes memory control into specialized operators for step processing, memory compression, episodic writing, and episodic selection, enabling plug-in memory augmentation without finetuning the GUI agent backbone. We further develop a scalable data curation pipeline that converts computer-use trajectories into memory-controller training data, introduce MementoGUI-Bench for evaluating long-horizon decision-making in GUI agents, and design MLLM-based metrics for semantic action matching, task progress, and memory consistency. Experiments on GUI-Odyssey, MM-Mind2Web, and MementoGUI-Bench show that MementoGUI consistently improves GUI agents over no-history, history-replay, and text-only memory baselines, with larger MementoCore backbones further strengthening memory-augmented GUI control.