HiconAgent: Оптимизация политики с учетом исторического контекста для GUI-агентов
HiconAgent: History Context-aware Policy Optimization for GUI Agents
December 1, 2025
Авторы: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao
cs.AI
Аннотация
Агенты с графическим интерфейсом (GUI) требуют эффективного использования исторического контекста для выполнения последовательных задач навигации. Хотя включение прошлых действий и наблюдений может улучшить принятие решений, наивное использование полной истории приводит к чрезмерным вычислительным затратам и отвлечению на нерелевантную информацию. Для решения этой проблемы мы представляем HiconAgent — агент GUI, обученный с помощью оптимизации политики с учетом исторического контекста (HCPO) для эффективного использования исторической информации. HCPO оптимизирует использование истории как на этапе сэмплирования, так и на этапе обновления политики с помощью двух взаимодополняющих компонентов: (1) Динамическое сэмплирование контекста (DCS) предоставляет агенту истории переменной длины во время сэмплирования, позволяя адаптивно использовать наиболее релевантный контекст; (2) Анкерное сжатие истории (AHC) улучшает фазу обновления политики с помощью двухветвевой стратегии, где сжатая ветвь удаляет наблюдения из истории, сохраняя действия в качестве якорей информационного потока. Сжатая и несжатая ветви связываются через loss-функцию выравнивания, усиленную историей, для обеспечения согласованного использования истории при сохранении эффективности. Эксперименты на основных бенчмарках навигации GUI демонстрируют высокую производительность. Несмотря на меньший размер, HiconAgent-3B превосходит GUI-R1-7B на +8.46% по точности граундинга и на +11.32% по успешности шагов на GUI-Odyssey, при этом показывая сопоставимые результаты на AndroidControl и AITW с ускорением вычислений до 2.47x и сокращением FLOPs на 60%.
English
Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.