AndroTMem: De trayectorias de interacción a memoria anclada en agentes GUI de horizonte largo
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents
March 19, 2026
Autores: Yibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu
cs.AI
Resumen
Los agentes GUI de largo horizonte son un paso clave hacia la implementación en el mundo real, sin embargo, la memoria de interacción efectiva bajo los paradigmas predominantes sigue siendo poco explorada. La reproducción de secuencias completas de interacción es redundante y amplifica el ruido, mientras que los resúmenes a menudo eliminan información crítica de dependencia y la trazabilidad. Presentamos AndroTMem, un marco de diagnóstico para la memoria anclada en agentes GUI de Android de largo horizonte. Su punto de referencia central, AndroTMem-Bench, comprende 1.069 tareas con 34.473 pasos de interacción (promedio 32.1 por tarea, máximo 65). Evaluamos a los agentes con TCR (Tasa de Finalización de Tareas), centrándonos en tareas cuya finalización requiere llevar adelante estados intermedios críticos; AndroTMem-Bench está diseñado para imponer fuertes dependencias causales paso a paso, haciendo que los estados intermedios, escasos pero esenciales, sean decisivos para las acciones posteriores y situando la memoria de interacción en el centro de la evaluación. En agentes GUI de código abierto y cerrado, observamos un patrón consistente: a medida que las secuencias de interacción se alargan, las caídas de rendimiento son impulsadas principalmente por fallos de memoria dentro de la tarea, no por errores de percepción aislados o errores de acción local. Guiados por este diagnóstico, proponemos Anchored State Memory (ASM), que representa las secuencias de interacción como un conjunto compacto de anclajes de estado intermedio causalmente vinculados para permitir una recuperación dirigida a subobjetivos y una toma de decisiones consciente de la atribución. En múltiples entornos y 12 agentes GUI evaluados, ASM supera consistentemente a las líneas base de reproducción de secuencias completas y basadas en resúmenes, mejorando el TCR en un 5%-30.16% y el AMS en un 4.93%-24.66%, lo que indica que la memoria estructurada y anclada mitiga efectivamente el cuello de botella de la memoria de interacción en tareas GUI de largo horizonte. El código, el punto de referencia y los recursos relacionados están disponibles públicamente en [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
English
Long-horizon GUI agents are a key step toward real-world deployment, yet effective interaction memory under prevailing paradigms remains under-explored. Replaying full interaction sequences is redundant and amplifies noise, while summaries often erase dependency-critical information and traceability. We present AndroTMem, a diagnostic framework for anchored memory in long-horizon Android GUI agents. Its core benchmark, AndroTMem-Bench, comprises 1,069 tasks with 34,473 interaction steps (avg. 32.1 per task, max. 65). We evaluate agents with TCR (Task Complete Rate), focusing on tasks whose completion requires carrying forward critical intermediate state; AndroTMem-Bench is designed to enforce strong step-to-step causal dependencies, making sparse yet essential intermediate states decisive for downstream actions and centering interaction memory in evaluation. Across open- and closed-source GUI agents, we observe a consistent pattern: as interaction sequences grow longer, performance drops are driven mainly by within-task memory failures, not isolated perception errors or local action mistakes. Guided by this diagnosis, we propose Anchored State Memory (ASM), which represents interaction sequences as a compact set of causally linked intermediate-state anchors to enable subgoal-targeted retrieval and attribution-aware decision making. Across multiple settings and 12 evaluated GUI agents, ASM consistently outperforms full-sequence replay and summary-based baselines, improving TCR by 5%-30.16% and AMS by 4.93%-24.66%, indicating that anchored, structured memory effectively mitigates the interaction-memory bottleneck in long-horizon GUI tasks. The code, benchmark, and related resources are publicly available at [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).