AndroTMem: от траекторий взаимодействия к закрепленной памяти в GUI-агентах с длительным горизонтом планирования
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents
March 19, 2026
Авторы: Yibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu
cs.AI
Аннотация
Агенты графического интерфейса с длительным горизонтом планирования являются ключевым шагом к реальному развертыванию, однако эффективная организация памяти взаимодействия в преобладающих парадигмах остается малоизученной. Воспроизведение полных последовательностей взаимодействия избыточно и усиливает шум, тогда как сводки часто стирают критически важную для зависимостей информацию и трассируемость. Мы представляем AndroTMem — диагностический фреймворк для анкерной памяти в агентах Android GUI с длительным горизонтом. Его ключевой бенчмарк, AndroTMem-Bench, включает 1069 задач с 34 473 шагами взаимодействия (в среднем 32,1 на задачу, максимум 65). Мы оцениваем агентов с помощью TCR (коэффициента завершения задач), фокусируясь на задачах, для выполнения которых требуется перенос критических промежуточных состояний; AndroTMem-Bench разработан для обеспечения строгих пошаговых причинно-следственных зависимостей, что делает разреженные, но существенные промежуточные состояния решающими для последующих действий и выводит память взаимодействия в центр оценки. Для открытых и проприетарных GUI-агентов наблюдается устойчивая закономерность: по мере удлинения последовательностей взаимодействия снижение производительности обусловлено в основном сбоями памяти внутри задачи, а не изолированными ошибками восприятия или локальными ошибками действий. Руководствуясь этой диагностикой, мы предлагаем Anchored State Memory (ASM), которая представляет последовательности взаимодействия в виде компактного набора причинно связанных промежуточных состояний-якорей для целевого поиска, ориентированного на подзадачи, и принятия решений с учетом атрибуции. В различных настройках и для 12 оцененных GUI-агентов ASM стабильно превосходит базовые методы полного воспроизведения последовательностей и сводок, улучшая TCR на 5%–30,16% и AMS на 4,93%–24,66%, что указывает на эффективность анкерной структурированной памяти в преодолении узкого места взаимодействия-памяти в задачах с длительным горизонтом. Код, бенчмарк и сопутствующие ресурсы доступны по адресу [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
English
Long-horizon GUI agents are a key step toward real-world deployment, yet effective interaction memory under prevailing paradigms remains under-explored. Replaying full interaction sequences is redundant and amplifies noise, while summaries often erase dependency-critical information and traceability. We present AndroTMem, a diagnostic framework for anchored memory in long-horizon Android GUI agents. Its core benchmark, AndroTMem-Bench, comprises 1,069 tasks with 34,473 interaction steps (avg. 32.1 per task, max. 65). We evaluate agents with TCR (Task Complete Rate), focusing on tasks whose completion requires carrying forward critical intermediate state; AndroTMem-Bench is designed to enforce strong step-to-step causal dependencies, making sparse yet essential intermediate states decisive for downstream actions and centering interaction memory in evaluation. Across open- and closed-source GUI agents, we observe a consistent pattern: as interaction sequences grow longer, performance drops are driven mainly by within-task memory failures, not isolated perception errors or local action mistakes. Guided by this diagnosis, we propose Anchored State Memory (ASM), which represents interaction sequences as a compact set of causally linked intermediate-state anchors to enable subgoal-targeted retrieval and attribution-aware decision making. Across multiple settings and 12 evaluated GUI agents, ASM consistently outperforms full-sequence replay and summary-based baselines, improving TCR by 5%-30.16% and AMS by 4.93%-24.66%, indicating that anchored, structured memory effectively mitigates the interaction-memory bottleneck in long-horizon GUI tasks. The code, benchmark, and related resources are publicly available at [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).