AndroTMem: De Trajetórias de Interação para Memória Ancorada em Agentes de Interface Gráfica de Longo Prazo
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents
March 19, 2026
Autores: Yibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu
cs.AI
Resumo
Os agentes de GUI de longo horizonte são um passo crucial para a implantação no mundo real, mas a memória de interação eficaz sob os paradigmas predominantes permanece pouco explorada. A reprodução de sequências completas de interação é redundante e amplifica o ruído, enquanto os resumos frequentemente apagam informações críticas de dependência e a rastreabilidade. Apresentamos o AndroTMem, uma estrutura de diagnóstico para memória ancorada em agentes de GUI Android de longo horizonte. Seu principal benchmark, o AndroTMem-Bench, compreende 1.069 tarefas com 34.473 etapas de interação (média de 32,1 por tarefa, máximo de 65). Avaliamos os agentes com a TCR (Taxa de Conclusão de Tarefas), focando em tarefas cuja conclusão requer o transporte de estados intermediários críticos; o AndroTMem-Bench foi projetado para impor fortes dependências causais passo a passo, tornando estados intermediários esparsos, porém essenciais, decisivos para ações subsequentes e colocando a memória de interação no centro da avaliação. Em agentes de GUI de código aberto e proprietários, observamos um padrão consistente: à medida que as sequências de interação se tornam mais longas, as quedas de desempenho são impulsionadas principalmente por falhas de memória dentro da tarefa, e não por erros isolados de percepção ou erros de ação local. Guiados por este diagnóstico, propomos a Memória de Estado Ancorada (ASM), que representa sequências de interação como um conjunto compacto de âncoras de estado intermediário causalmente ligadas para permitir a recuperação direcionada a subobjetivos e a tomada de decisão com consciência de atribuição. Em múltiplos ambientes e 12 agentes de GUI avaliados, a ASM supera consistentemente as linhas de base baseadas em reprodução de sequência completa e em resumos, melhorando a TCR em 5%-30,16% e a AMS em 4,93%-24,66%, indicando que a memória estruturada e ancorada mitiga efetivamente o gargalo da memória de interação em tarefas de GUI de longo horizonte. O código, o benchmark e os recursos relacionados estão publicamente disponíveis em [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
English
Long-horizon GUI agents are a key step toward real-world deployment, yet effective interaction memory under prevailing paradigms remains under-explored. Replaying full interaction sequences is redundant and amplifies noise, while summaries often erase dependency-critical information and traceability. We present AndroTMem, a diagnostic framework for anchored memory in long-horizon Android GUI agents. Its core benchmark, AndroTMem-Bench, comprises 1,069 tasks with 34,473 interaction steps (avg. 32.1 per task, max. 65). We evaluate agents with TCR (Task Complete Rate), focusing on tasks whose completion requires carrying forward critical intermediate state; AndroTMem-Bench is designed to enforce strong step-to-step causal dependencies, making sparse yet essential intermediate states decisive for downstream actions and centering interaction memory in evaluation. Across open- and closed-source GUI agents, we observe a consistent pattern: as interaction sequences grow longer, performance drops are driven mainly by within-task memory failures, not isolated perception errors or local action mistakes. Guided by this diagnosis, we propose Anchored State Memory (ASM), which represents interaction sequences as a compact set of causally linked intermediate-state anchors to enable subgoal-targeted retrieval and attribution-aware decision making. Across multiple settings and 12 evaluated GUI agents, ASM consistently outperforms full-sequence replay and summary-based baselines, improving TCR by 5%-30.16% and AMS by 4.93%-24.66%, indicating that anchored, structured memory effectively mitigates the interaction-memory bottleneck in long-horizon GUI tasks. The code, benchmark, and related resources are publicly available at [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).