AndroTMem: Van interactietrajecten naar verankerd geheugen in GUI-agents voor lange-termijntaken
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents
March 19, 2026
Auteurs: Yibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu
cs.AI
Samenvatting
Langetermijn-GUI-agenten zijn een cruciale stap naar praktijkimplementatie, maar effectief interactiegeheugen binnen heersende paradigma's blijft onderbelicht. Het volledig herhalen van interactiesequenties is redundant en versterkt ruis, terwijl samenvattingen vaak afhankelijkheidskritieke informatie en traceerbaarheid wissen. Wij presenteren AndroTMem, een diagnostisch raamwerk voor verankerd geheugen in langetermijn Android-GUI-agenten. De kernbenchmark, AndroTMem-Bench, omvat 1.069 taken met 34.473 interactiestappen (gem. 32,1 per taak, max. 65). Wij evalueren agenten met TCR (Task Complete Rate), gericht op taken waarvan voltooiing het meenemen van kritieke tussentijdse toestanden vereist; AndroTMem-Bench is ontworpen om sterke stap-voor-stap causale afhankelijkheden af te dwingen, waardoor schaarse maar essentiële tussentijdse toestanden beslissend zijn voor downstream-acties en interactiegeheugen centraal staat in de evaluatie. Bij zowel open- als closed-source GUI-agenten observeren we een consistent patroon: naarmate interactiesequenties langer worden, worden prestatieverliezen vooral gedreven door geheugenfouten binnen taken, niet door geïsoleerde perceptiefouten of lokale actiefouten. Geleid door deze diagnose stellen we Anchored State Memory (ASM) voor, dat interactiesequenties representeert als een compacte set causaal verbonden tussentijdse toestandsankers om subdoelgerichte retrievel en attributiebewuste besluitvorming mogelijk te maken. Over diverse settingen en 12 geëvalueerde GUI-agenten presteert ASM consistent beter dan volledige sequentiereplay en op samenvattingen gebaseerde baseline-methoden, met TCR-verbeteringen van 5%-30,16% en AMS-verbeteringen van 4,93%-24,66%, wat aantoont dat verankerd, gestructureerd geheugen het interactiegeheugenknelpunt in langetermijn-GUI-taken effectief verlicht. De code, benchmark en gerelateerde bronnen zijn openbaar beschikbaar op [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
English
Long-horizon GUI agents are a key step toward real-world deployment, yet effective interaction memory under prevailing paradigms remains under-explored. Replaying full interaction sequences is redundant and amplifies noise, while summaries often erase dependency-critical information and traceability. We present AndroTMem, a diagnostic framework for anchored memory in long-horizon Android GUI agents. Its core benchmark, AndroTMem-Bench, comprises 1,069 tasks with 34,473 interaction steps (avg. 32.1 per task, max. 65). We evaluate agents with TCR (Task Complete Rate), focusing on tasks whose completion requires carrying forward critical intermediate state; AndroTMem-Bench is designed to enforce strong step-to-step causal dependencies, making sparse yet essential intermediate states decisive for downstream actions and centering interaction memory in evaluation. Across open- and closed-source GUI agents, we observe a consistent pattern: as interaction sequences grow longer, performance drops are driven mainly by within-task memory failures, not isolated perception errors or local action mistakes. Guided by this diagnosis, we propose Anchored State Memory (ASM), which represents interaction sequences as a compact set of causally linked intermediate-state anchors to enable subgoal-targeted retrieval and attribution-aware decision making. Across multiple settings and 12 evaluated GUI agents, ASM consistently outperforms full-sequence replay and summary-based baselines, improving TCR by 5%-30.16% and AMS by 4.93%-24.66%, indicating that anchored, structured memory effectively mitigates the interaction-memory bottleneck in long-horizon GUI tasks. The code, benchmark, and related resources are publicly available at [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).