ChatPaper.aiChatPaper

HiconAgent : Optimisation de Politique Contextuelle Historique pour Agents d'Interface Graphique

HiconAgent: History Context-aware Policy Optimization for GUI Agents

December 1, 2025
papers.authors: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao
cs.AI

papers.abstract

Les agents d'interface utilisateur graphique (GUI) nécessitent une utilisation efficace du contexte historique pour réaliser des tâches de navigation séquentielle. Bien que l'intégration des actions et observations passées puisse améliorer la prise de décision, une utilisation naïve de l'historique complet entraîne une surcharge computationnelle excessive et des distractions dues aux informations non pertinentes. Pour résoudre ce problème, nous présentons HiconAgent, un agent GUI entraîné avec une Optimisation de Politique Consciente du Contexte Historique (HCPO) pour une utilisation efficace et efficiente des informations historiques. HCPO optimise l'utilisation de l'historique à la fois dans l'échantillonnage et les mises à jour de politique via deux composants complémentaires : (1) l'Échantillonnage Dynamique du Contexte (DCS) présente à l'agent des historiques de longueur variable pendant l'échantillonnage, permettant une utilisation adaptative du contexte le plus pertinent ; (2) la Compression d'Historique Guidée par Ancres (AHC) affine la phase de mise à jour de la politique avec une stratégie à double branche où la branche compressée supprime les observations historiques tout en conservant les actions historiques comme ancres du flux d'information. Les branches compressée et non compressée sont couplées via une perte d'alignement améliorée par l'historique pour imposer une utilisation cohérente de l'historique tout en maintenant l'efficacité. Les expériences sur les benchmarks principaux de navigation GUI démontrent des performances solides. Bien que plus petit, HiconAgent-3B surpasse GUI-R1-7B de +8,46 % en précision de grounding et +11,32 % en taux de réussite par étape sur GUI-Odyssey, tout en obtenant des résultats comparables sur AndroidControl et AITW avec une accélération computationnelle allant jusqu'à 2,47x et une réduction de 60 % des FLOPs.
English
Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.
PDF31December 3, 2025