AndroTMem: Von Interaktionsverläufen zu verankertem Gedächtnis in GUI-Agenten für langfristige Aufgaben
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents
March 19, 2026
Autoren: Yibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu
cs.AI
Zusammenfassung
Langfristige GUI-Agenten sind ein entscheidender Schritt hin zum realen Einsatz, dennoch bleibt effektive Interaktionsspeicherung unter vorherrschenden Paradigmen unzureichend erforscht. Die Wiederholung vollständiger Interaktionssequenzen ist redundant und verstärkt Rauschen, während Zusammenfassungen oft abhängigkeitskritische Informationen und Nachverfolgbarkeit löschen. Wir stellen AndroTMem vor, ein Diagnoseframework für verankerte Speicherung in langfristigen Android-GUI-Agenten. Sein Kern-Benchmark, AndroTMem-Bench, umfasst 1.069 Aufgaben mit 34.473 Interaktionsschritten (Ø 32.1 pro Aufgabe, max. 65). Wir bewerten Agenten mit TCR (Task Completion Rate), wobei der Fokus auf Aufgaben liegt, deren Abschluss das Weitertragen kritischer Zwischenzustände erfordert; AndroTMem-Bench ist so konzipiert, dass er starke schritt-zu-Schritt-Kausalabhängigkeiten erzwingt, wodurch spärliche aber essentielle Zwischenzustände entscheidend für nachgelagerte Aktionen werden und Interaktionsspeicherung ins Zentrum der Evaluation rücken. Über Open-Source- und Closed-Source-GUI-Agenten hinweg beobachten wir ein konsistentes Muster: Mit zunehmender Länge der Interaktionssequenzen werden Leistungseinbußen hauptsächlich durch speicherinterne Fehler innerhalb der Aufgabe verursacht, nicht durch isolierte Wahrnehmungsfehler oder lokale Aktionsfehler. Aufbauend auf dieser Diagnose schlagen wir Anchored State Memory (ASM) vor, das Interaktionssequenzen als kompakte Menge kausal verknüpfter Zwischenzustands-Anker repräsentiert, um teilzielorientierte Abfrage und zuschreibungsbewusste Entscheidungsfindung zu ermöglichen. Über multiple Settings und 12 evaluierte GUI-Agenten hinweg übertrifft ASM konsistent Baseline-Methoden mit Vollsequenzwiederholung und zusammenfassungsbasierten Ansätzen, verbessert TCR um 5%-30.16% und AMS um 4.93%-24.66%, was zeigt, dass verankerter, strukturierter Speicher den Interaktionsspeicher-Engpass in langfristigen GUI-Aufgaben effektiv mindert. Code, Benchmark und zugehörige Ressourcen sind öffentlich verfügbar unter [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
English
Long-horizon GUI agents are a key step toward real-world deployment, yet effective interaction memory under prevailing paradigms remains under-explored. Replaying full interaction sequences is redundant and amplifies noise, while summaries often erase dependency-critical information and traceability. We present AndroTMem, a diagnostic framework for anchored memory in long-horizon Android GUI agents. Its core benchmark, AndroTMem-Bench, comprises 1,069 tasks with 34,473 interaction steps (avg. 32.1 per task, max. 65). We evaluate agents with TCR (Task Complete Rate), focusing on tasks whose completion requires carrying forward critical intermediate state; AndroTMem-Bench is designed to enforce strong step-to-step causal dependencies, making sparse yet essential intermediate states decisive for downstream actions and centering interaction memory in evaluation. Across open- and closed-source GUI agents, we observe a consistent pattern: as interaction sequences grow longer, performance drops are driven mainly by within-task memory failures, not isolated perception errors or local action mistakes. Guided by this diagnosis, we propose Anchored State Memory (ASM), which represents interaction sequences as a compact set of causally linked intermediate-state anchors to enable subgoal-targeted retrieval and attribution-aware decision making. Across multiple settings and 12 evaluated GUI agents, ASM consistently outperforms full-sequence replay and summary-based baselines, improving TCR by 5%-30.16% and AMS by 4.93%-24.66%, indicating that anchored, structured memory effectively mitigates the interaction-memory bottleneck in long-horizon GUI tasks. The code, benchmark, and related resources are publicly available at [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).