MementoGUI: Leren van agentische multimodale geheugencontrole voor GUI-agenten met een lange horizon
MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents
May 18, 2026
Auteurs: Ziyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo
cs.AI
Samenvatting
Recent GUI-agenten hebben substantiële vooruitgang geboekt op het gebied van visuele gronding en actievoorspelling, maar blijven kwetsbaar in langetermijntaken die het behoud van de taaktoestand over vele interface-overgangen vereisen. Bestaande agenten vertrouwen doorgaans op onbewerkte geschiedenisafspeling of alleen-tekstgeheugen, wat het model ofwel overstelpt met redundante schermafbeeldingen, ofwel gelokaliseerd visueel bewijs weggegooid dat nodig is voor toekomstige beslissingen. Om deze beperkingen aan te pakken, introduceren we MementoGUI, een plug-in agentisch geheugenraamwerk dat MLLM-gebaseerde GUI-agenten uitrust met MementoCore, een geleerde controller voor online geheugenselectie, -compressie en -ophaling. In plaats van de interactiegeschiedenis als een vaste context te behandelen, formuleert MementoGUI langetermijn-GUI-besturing als een online geheugencontrolevraagstuk: het werkgeheugen selectief taakrelevante interfacegebeurtenissen behouden met tekstuele samenvattingen en visueel bewijs op ROI-niveau, terwijl het episodisch geheugen herbruikbare eerdere trajecten ophaalt via geleerde relevantieselectie. MementoCore modulariseert geheugenbesturing in gespecialiseerde operatoren voor stapverwerking, geheugencompressie, episodisch schrijven en episodische selectie, waardoor plug-in geheugenuitbreiding mogelijk wordt zonder fijnafstemming van de ruggengraat van de GUI-agent. We ontwikkelen verder een schaalbare datacuratiepijplijn die computergebruikstrajecten omzet in trainingsgegevens voor geheugencontrollers, introduceren MementoGUI-Bench voor het evalueren van langetermijnbesluitvorming in GUI-agenten, en ontwerpen MLLM-gebaseerde metrieken voor semantische actiematching, taakvoortgang en geheugenconsistentie. Experimenten op GUI-Odyssey, MM-Mind2Web en MementoGUI-Bench tonen aan dat MementoGUI GUI-agenten consistent verbetert ten opzichte van baselines zonder geschiedenis, met geschiedenisafspeling en met alleen-tekstgeheugen, waarbij grotere MementoCore-ruggengraten de geheugengeaugmenteerde GUI-besturing verder versterken.
English
Recent GUI agents have made substantial progress in visual grounding and action prediction, yet they remain brittle in long-horizon tasks that require maintaining task state across many interface transitions. Existing agents typically rely on raw history replay or text-only memory, which either overwhelms the model with redundant screenshots or discards localized visual evidence needed for future decisions. To address these limitations, we introduce MementoGUI, a plug-in agentic memory framework that equips MLLM-based GUI agents with MementoCore, a learned controller for online memory selection, compression, and retrieval. Rather than treating interaction history as a fixed context, MementoGUI formulates long-horizon GUI control as an online memory-control problem: working memory selectively preserves task-relevant interface events with textual summaries and ROI-level visual evidence, while episodic memory retrieves reusable past trajectories through learned relevance selection. MementoCore modularizes memory control into specialized operators for step processing, memory compression, episodic writing, and episodic selection, enabling plug-in memory augmentation without finetuning the GUI agent backbone. We further develop a scalable data curation pipeline that converts computer-use trajectories into memory-controller training data, introduce MementoGUI-Bench for evaluating long-horizon decision-making in GUI agents, and design MLLM-based metrics for semantic action matching, task progress, and memory consistency. Experiments on GUI-Odyssey, MM-Mind2Web, and MementoGUI-Bench show that MementoGUI consistently improves GUI agents over no-history, history-replay, and text-only memory baselines, with larger MementoCore backbones further strengthening memory-augmented GUI control.