MementoGUI: Aprendizaje del Control de Memoria Multimodal Agéntico para Agentes GUI de Largo Plazo

Resumen

Los agentes de GUI recientes han logrado avances significativos en el grounding visual y la predicción de acciones, pero siguen siendo frágiles en tareas de largo horizonte que requieren mantener el estado de la tarea a través de múltiples transiciones de interfaz. Los agentes existentes suelen basarse en la reproducción del historial en bruto o en una memoria solo textual, lo cual sobrecarga al modelo con capturas de pantalla redundantes o descarta la evidencia visual localizada necesaria para decisiones futuras. Para abordar estas limitaciones, presentamos MementoGUI, un marco de memoria agéntica como complemento que dota a los agentes de GUI basados en MLLM con MementoCore, un controlador aprendido para la selección, compresión y recuperación de memoria en línea. En lugar de tratar el historial de interacción como un contexto fijo, MementoGUI formula el control de GUI de largo horizonte como un problema de control de memoria en línea: la memoria de trabajo preserva selectivamente eventos de interfaz relevantes para la tarea mediante resúmenes textuales y evidencia visual a nivel de ROI, mientras que la memoria episódica recupera trayectorias pasadas reutilizables mediante una selección de relevancia aprendida. MementoCore modulariza el control de memoria en operadores especializados para el procesamiento de pasos, compresión de memoria, escritura episódica y selección episódica, lo que permite un aumento de memoria como complemento sin necesidad de ajustar fino el backbone del agente de GUI. Además, desarrollamos un pipeline escalable de curación de datos que convierte trayectorias de uso de computadora en datos de entrenamiento para el controlador de memoria, introducimos MementoGUI-Bench para evaluar la toma de decisiones de largo horizonte en agentes de GUI, y diseñamos métricas basadas en MLLM para la coincidencia de acciones semánticas, el progreso de la tarea y la consistencia de la memoria. Los experimentos en GUI-Odyssey, MM-Mind2Web y MementoGUI-Bench muestran que MementoGUI mejora consistentemente a los agentes de GUI frente a las líneas base sin historial, con reproducción de historial y con memoria solo textual, mientras que backbones más grandes de MementoCore fortalecen aún más el control de GUI aumentado con memoria.

English

Recent GUI agents have made substantial progress in visual grounding and action prediction, yet they remain brittle in long-horizon tasks that require maintaining task state across many interface transitions. Existing agents typically rely on raw history replay or text-only memory, which either overwhelms the model with redundant screenshots or discards localized visual evidence needed for future decisions. To address these limitations, we introduce MementoGUI, a plug-in agentic memory framework that equips MLLM-based GUI agents with MementoCore, a learned controller for online memory selection, compression, and retrieval. Rather than treating interaction history as a fixed context, MementoGUI formulates long-horizon GUI control as an online memory-control problem: working memory selectively preserves task-relevant interface events with textual summaries and ROI-level visual evidence, while episodic memory retrieves reusable past trajectories through learned relevance selection. MementoCore modularizes memory control into specialized operators for step processing, memory compression, episodic writing, and episodic selection, enabling plug-in memory augmentation without finetuning the GUI agent backbone. We further develop a scalable data curation pipeline that converts computer-use trajectories into memory-controller training data, introduce MementoGUI-Bench for evaluating long-horizon decision-making in GUI agents, and design MLLM-based metrics for semantic action matching, task progress, and memory consistency. Experiments on GUI-Odyssey, MM-Mind2Web, and MementoGUI-Bench show that MementoGUI consistently improves GUI agents over no-history, history-replay, and text-only memory baselines, with larger MementoCore backbones further strengthening memory-augmented GUI control.