AndroTMem : Des trajectoires d'interaction à la mémoire ancrée dans les agents d'interface graphique à long horizon
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents
March 19, 2026
Auteurs: Yibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu
cs.AI
Résumé
Les agents d'interface graphique (GUI) à long horizon constituent une étape clé vers le déploiement en conditions réelles, pourtant la mémoire d'interaction efficace reste peu explorée dans les paradigmes dominants. La relecture intégrale des séquences d'interaction est redondante et amplifie le bruit, tandis que les synthèses effacent souvent les informations cruciales pour les dépendances et la traçabilité. Nous présentons AndroTMem, un cadre de diagnostic pour la mémoire ancrée dans les agents GUI Android à long horizon. Son benchmark principal, AndroTMem-Bench, comprend 1 069 tâches avec 34 473 étapes d'interaction (moyenne 32,1 par tâche, maximum 65). Nous évaluons les agents avec le TCR (Taux d'Achèvement des Tâches), en nous concentrant sur les tâches dont la réalisation nécessite de conserver les états intermédiaires critiques ; AndroTMem-Bench est conçu pour imposer de fortes dépendances causales entre les étapes, rendant les états intermédiaires rares mais essentiels décisifs pour les actions suivantes et plaçant la mémoire d'interaction au cœur de l'évaluation. Sur divers agents GUI open-source et propriétaires, nous observons un schéma constant : à mesure que les séquences d'interaction s'allongent, les baisses de performance sont principalement dues à des défaillances de la mémoire intra-tâche, et non à des erreurs de perception isolées ou à des erreurs d'action locales. Guidés par ce diagnostic, nous proposons Anchored State Memory (ASM), qui représente les séquences d'interaction comme un ensemble compact d'ancres d'état intermédiaire liées causalement, permettant une récupération ciblée sur les sous-buts et une prise de décision tenant compte de l'attribution. Dans divers contextes et sur 12 agents GUI évalués, ASM surpasse constamment les approches de relecture intégrale et les bases de référence par synthèse, améliorant le TCR de 5 % à 30,16 % et l'AMS de 4,93 % à 24,66 %, indiquant qu'une mémoire structurée et ancrée atténue efficacement le goulot d'étranglement de la mémoire d'interaction dans les tâches GUI à long horizon. Le code, le benchmark et les ressources associées sont disponibles publiquement à l'adresse [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
English
Long-horizon GUI agents are a key step toward real-world deployment, yet effective interaction memory under prevailing paradigms remains under-explored. Replaying full interaction sequences is redundant and amplifies noise, while summaries often erase dependency-critical information and traceability. We present AndroTMem, a diagnostic framework for anchored memory in long-horizon Android GUI agents. Its core benchmark, AndroTMem-Bench, comprises 1,069 tasks with 34,473 interaction steps (avg. 32.1 per task, max. 65). We evaluate agents with TCR (Task Complete Rate), focusing on tasks whose completion requires carrying forward critical intermediate state; AndroTMem-Bench is designed to enforce strong step-to-step causal dependencies, making sparse yet essential intermediate states decisive for downstream actions and centering interaction memory in evaluation. Across open- and closed-source GUI agents, we observe a consistent pattern: as interaction sequences grow longer, performance drops are driven mainly by within-task memory failures, not isolated perception errors or local action mistakes. Guided by this diagnosis, we propose Anchored State Memory (ASM), which represents interaction sequences as a compact set of causally linked intermediate-state anchors to enable subgoal-targeted retrieval and attribution-aware decision making. Across multiple settings and 12 evaluated GUI agents, ASM consistently outperforms full-sequence replay and summary-based baselines, improving TCR by 5%-30.16% and AMS by 4.93%-24.66%, indicating that anchored, structured memory effectively mitigates the interaction-memory bottleneck in long-horizon GUI tasks. The code, benchmark, and related resources are publicly available at [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).