AndroTMem: Dalle traiettorie di interazione alla memoria ancorata negli agenti GUI a lungo termine
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents
March 19, 2026
Autori: Yibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu
cs.AI
Abstract
Gli agenti GUI a lungo orizzonte rappresentano un passo cruciale verso il dispiegamento nel mondo reale, tuttavia la memoria interattiva efficace nei paradigmi prevalenti rimane poco esplorata. La riproduzione di sequenze interattive complete è ridondante e amplifica il rumore, mentre i riassunti spesso cancellano informazioni critiche per le dipendenze e la tracciabilità. Presentiamo AndroTMem, un framework diagnostico per la memoria ancorata in agenti GUI Android a lungo orizzonte. Il suo benchmark principale, AndroTMem-Bench, comprende 1.069 task con 34.473 passi interattivi (media 32.1 per task, max 65). Valutiamo gli agenti con il TCR (Tasso di Completamento Task), concentrandoci sui task il cui completamento richiede il trasferimento di stati intermedi critici; AndroTMem-Bench è progettato per imporre forti dipendenze causali passo-passo, rendendo gli stati intermedi sparsi ma essenziali decisivi per le azioni successive e ponendo la memoria interattiva al centro della valutazione. Attraverso agenti GUI open-source e proprietari, osserviamo un pattern coerente: all'aumentare della lunghezza delle sequenze interattive, i cali prestazionali sono guidati principalmente da fallimenti della memoria intra-task, non da errori percettivi isolati o errori azionali locali. Guidati da questa diagnosi, proponiamo l'Anchored State Memory (ASM), che rappresenta le sequenze interattive come un insieme compatto di ancore di stati intermedi causalmente collegati per consentire un recupero mirato ai sottobiettivi e un processo decisionale consapevole dell'attribuzione. In molteplici setting e 12 agenti GUI valutati, l'ASM supera costantemente le baseline di replay completo delle sequenze e quelle basate su riassunti, migliorando il TCR del 5%-30.16% e l'AMS del 4.93%-24.66%, indicando che la memoria strutturata e ancorata mitiga efficacemente il collo di bottiglia della memoria interattiva nei task GUI a lungo orizzonte. Il codice, il benchmark e le risorse correlate sono pubblicamente disponibili su [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
English
Long-horizon GUI agents are a key step toward real-world deployment, yet effective interaction memory under prevailing paradigms remains under-explored. Replaying full interaction sequences is redundant and amplifies noise, while summaries often erase dependency-critical information and traceability. We present AndroTMem, a diagnostic framework for anchored memory in long-horizon Android GUI agents. Its core benchmark, AndroTMem-Bench, comprises 1,069 tasks with 34,473 interaction steps (avg. 32.1 per task, max. 65). We evaluate agents with TCR (Task Complete Rate), focusing on tasks whose completion requires carrying forward critical intermediate state; AndroTMem-Bench is designed to enforce strong step-to-step causal dependencies, making sparse yet essential intermediate states decisive for downstream actions and centering interaction memory in evaluation. Across open- and closed-source GUI agents, we observe a consistent pattern: as interaction sequences grow longer, performance drops are driven mainly by within-task memory failures, not isolated perception errors or local action mistakes. Guided by this diagnosis, we propose Anchored State Memory (ASM), which represents interaction sequences as a compact set of causally linked intermediate-state anchors to enable subgoal-targeted retrieval and attribution-aware decision making. Across multiple settings and 12 evaluated GUI agents, ASM consistently outperforms full-sequence replay and summary-based baselines, improving TCR by 5%-30.16% and AMS by 4.93%-24.66%, indicating that anchored, structured memory effectively mitigates the interaction-memory bottleneck in long-horizon GUI tasks. The code, benchmark, and related resources are publicly available at [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).