MementoGUI: Aprendendo Controle de Memória Multimodal Agentivo para Agentes GUI de Longo Horizonte

Resumo

Agentes GUI recentes fizeram progressos substanciais na ancoragem visual e na predição de ações, mas ainda são frágeis em tarefas de longo horizonte que exigem manter o estado da tarefa através de muitas transições de interface. Agentes existentes tipicamente dependem de reprodução bruta do histórico ou memória apenas textual, que ou sobrecarregam o modelo com capturas de tela redundantes ou descartam evidências visuais localizadas necessárias para decisões futuras. Para abordar essas limitações, apresentamos o MementoGUI, um framework de memória agentiva plug-in que equipa agentes GUI baseados em MLLM com o MementoCore, um controlador aprendido para seleção, compressão e recuperação de memória online. Em vez de tratar o histórico de interação como um contexto fixo, o MementoGUI formula o controle GUI de longo horizonte como um problema de controle de memória online: a memória de trabalho preserva seletivamente eventos de interface relevantes para a tarefa com resumos textuais e evidência visual no nível de ROI, enquanto a memória episódica recupera trajetórias passadas reutilizáveis por meio de seleção de relevância aprendida. O MementoCore modulariza o controle de memória em operadores especializados para processamento de passos, compressão de memória, escrita episódica e seleção episódica, permitindo aumento de memória plug-in sem ajuste fino da espinha dorsal do agente GUI. Desenvolvemos ainda um pipeline escalável de curadoria de dados que converte trajetórias de uso do computador em dados de treinamento do controlador de memória, introduzimos o MementoGUI-Bench para avaliar a tomada de decisão de longo horizonte em agentes GUI, e projetamos métricas baseadas em MLLM para correspondência semântica de ações, progresso da tarefa e consistência da memória. Experimentos no GUI-Odyssey, MM-Mind2Web e MementoGUI-Bench mostram que o MementoGUI melhora consistentemente os agentes GUI em relação às linhas de base sem histórico, com reprodução de histórico e com memória apenas textual, com espinhas dorsais maiores do MementoCore fortalecendo ainda mais o controle GUI aumentado por memória.

English

Recent GUI agents have made substantial progress in visual grounding and action prediction, yet they remain brittle in long-horizon tasks that require maintaining task state across many interface transitions. Existing agents typically rely on raw history replay or text-only memory, which either overwhelms the model with redundant screenshots or discards localized visual evidence needed for future decisions. To address these limitations, we introduce MementoGUI, a plug-in agentic memory framework that equips MLLM-based GUI agents with MementoCore, a learned controller for online memory selection, compression, and retrieval. Rather than treating interaction history as a fixed context, MementoGUI formulates long-horizon GUI control as an online memory-control problem: working memory selectively preserves task-relevant interface events with textual summaries and ROI-level visual evidence, while episodic memory retrieves reusable past trajectories through learned relevance selection. MementoCore modularizes memory control into specialized operators for step processing, memory compression, episodic writing, and episodic selection, enabling plug-in memory augmentation without finetuning the GUI agent backbone. We further develop a scalable data curation pipeline that converts computer-use trajectories into memory-controller training data, introduce MementoGUI-Bench for evaluating long-horizon decision-making in GUI agents, and design MLLM-based metrics for semantic action matching, task progress, and memory consistency. Experiments on GUI-Odyssey, MM-Mind2Web, and MementoGUI-Bench show that MementoGUI consistently improves GUI agents over no-history, history-replay, and text-only memory baselines, with larger MementoCore backbones further strengthening memory-augmented GUI control.