HiconAgent: Ottimizzazione delle Politiche con Contesto Storico per Agenti GUI
HiconAgent: History Context-aware Policy Optimization for GUI Agents
December 1, 2025
Autori: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao
cs.AI
Abstract
Gli agenti per interfacce grafiche (GUI) richiedono un uso efficace del contesto storico per eseguire compiti di navigazione sequenziale. Sebbene l'incorporazione di azioni e osservazioni passate possa migliorare il processo decisionale, l'uso ingenuo dell'intera cronologia comporta un eccessivo sovraccarico computazionale e distrazione da informazioni irrilevanti. Per affrontare questo problema, presentiamo HiconAgent, un agente GUI addestrato con History Context-aware Policy Optimization (HCPO) per un utilizzo efficiente ed efficace delle informazioni storiche. HCPO ottimizza l'uso della cronologia sia nel campionamento che negli aggiornamenti della policy attraverso due componenti complementari: (1) il Dynamic Context Sampling (DCS) presenta all'agente cronologie di lunghezza variabile durante il campionamento, consentendo un uso adattativo del contesto più rilevante; (2) l'Anchor-guided History Compression (AHC) perfeziona la fase di aggiornamento della policy con una strategia a doppio ramo in cui il ramo compresso rimuove le osservazioni storiche mantenendo le azioni storiche come ancoraggi del flusso informativo. I rami compresso e non compresso sono accoppiati tramite una funzione di perdita di allineamento potenziata dalla cronologia per impiegare un utilizzo coerente della storia mantenendo l'efficienza. Esperimenti sui principali benchmark di navigazione GUI dimostrano prestazioni solide. Nonostante le dimensioni ridotte, HiconAgent-3B supera GUI-R1-7B di +8,46% in accuratezza di grounding e +11,32% in tasso di successo per step su GUI-Odyssey, ottenendo risultati comparabili su AndroidControl e AITW con un accelerazione computazionale fino a 2,47x e una riduzione del 60% delle operazioni in virgola mobile (FLOP).
English
Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.