MementoGUI : Apprentissage du contrôle agentique de mémoire multimodale pour agents GUI à long horizon

Résumé

Les agents d'interface graphique récents ont réalisé des progrès substantiels en matière d'ancrage visuel et de prédiction d'actions, mais restent fragiles dans les tâches à long horizon nécessitant le maintien de l'état de la tâche à travers de nombreuses transitions d'interface. Les agents existants s'appuient généralement sur un rejeu brut de l'historique ou une mémoire textuelle seule, ce qui soit submerge le modèle de captures d'écran redondantes, soit écarte les preuves visuelles localisées nécessaires aux décisions futures. Pour remédier à ces limitations, nous introduisons MementoGUI, un cadre de mémoire agentique enfichable qui dote les agents GUI basés sur MLLM de MementoCore, un contrôleur appris pour la sélection, la compression et la récupération de mémoire en ligne. Plutôt que de traiter l'historique des interactions comme un contexte fixe, MementoGUI formule le contrôle GUI à long horizon comme un problème de contrôle de mémoire en ligne : la mémoire de travail préserve de manière sélective les événements d'interface pertinents pour la tâche avec des résumés textuels et des preuves visuelles au niveau des régions d'intérêt, tandis que la mémoire épisodique récupère des trajectoires passées réutilisables via une sélection de pertinence apprise. MementoCore modularise le contrôle de la mémoire en opérateurs spécialisés pour le traitement par étape, la compression de mémoire, l'écriture épisodique et la sélection épisodique, permettant une augmentation de mémoire enfichable sans ajuster le noyau de l'agent GUI. Nous développons en outre un pipeline de curation de données passant à l'échelle qui convertit les trajectoires d'utilisation informatique en données d'entraînement du contrôleur de mémoire, introduisons MementoGUI-Bench pour évaluer la prise de décision à long horizon dans les agents GUI, et concevons des métriques basées sur MLLM pour l'appariement sémantique d'actions, la progression de tâche et la cohérence de mémoire. Les expériences sur GUI-Odyssey, MM-Mind2Web et MementoGUI-Bench montrent que MementoGUI améliore systématiquement les agents GUI par rapport aux bases de référence sans historique, avec rejeu d'historique et avec mémoire textuelle seule, les noyaux MementoCore plus grands renforçant davantage le contrôle GUI augmenté par la mémoire.

English

Recent GUI agents have made substantial progress in visual grounding and action prediction, yet they remain brittle in long-horizon tasks that require maintaining task state across many interface transitions. Existing agents typically rely on raw history replay or text-only memory, which either overwhelms the model with redundant screenshots or discards localized visual evidence needed for future decisions. To address these limitations, we introduce MementoGUI, a plug-in agentic memory framework that equips MLLM-based GUI agents with MementoCore, a learned controller for online memory selection, compression, and retrieval. Rather than treating interaction history as a fixed context, MementoGUI formulates long-horizon GUI control as an online memory-control problem: working memory selectively preserves task-relevant interface events with textual summaries and ROI-level visual evidence, while episodic memory retrieves reusable past trajectories through learned relevance selection. MementoCore modularizes memory control into specialized operators for step processing, memory compression, episodic writing, and episodic selection, enabling plug-in memory augmentation without finetuning the GUI agent backbone. We further develop a scalable data curation pipeline that converts computer-use trajectories into memory-controller training data, introduce MementoGUI-Bench for evaluating long-horizon decision-making in GUI agents, and design MLLM-based metrics for semantic action matching, task progress, and memory consistency. Experiments on GUI-Odyssey, MM-Mind2Web, and MementoGUI-Bench show that MementoGUI consistently improves GUI agents over no-history, history-replay, and text-only memory baselines, with larger MementoCore backbones further strengthening memory-augmented GUI control.