HiconAgent: Geschiedeniscontextbewust Beleidsoptimalisatie voor GUI-agenten
HiconAgent: History Context-aware Policy Optimization for GUI Agents
December 1, 2025
Auteurs: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao
cs.AI
Samenvatting
Graphical User Interface (GUI)-agenten hebben effectief gebruik van historische context nodig om sequentiële navigatietaken uit te voeren. Hoewel het opnemen van eerdere acties en observaties de besluitvorming kan verbeteren, leidt een naïef gebruik van de volledige geschiedenis tot excessieve rekenkosten en afleiding door irrelevante informatie. Om dit aan te pakken, introduceren we HiconAgent, een GUI-agent die is getraind met History Context-aware Policy Optimization (HCPO) voor efficiënt en effectief gebruik van historische informatie. HCPO optimaliseert het geschiedenisgebruik in zowel de steekproefname als de beleidsupdates via twee complementaire componenten: (1) Dynamic Context Sampling (DCS) presenteert de agent variabele lengte-geschiedenissen tijdens de steekproefname, waardoor adaptief gebruik van de meest relevante context mogelijk wordt; (2) Anchor-guided History Compression (AHC) verfijnt de beleidsupdatefase met een dubbele takstrategie waarbij de gecomprimeerde tak historische observaties verwijdert maar historische acties als ankers voor de informatiestroom behoudt. De gecomprimeerde en niet-gecomprimeerde takken worden gekoppeld via een geschiedenisverbeterd aligneringsverlies om consistent geschiedenisgebruik af te dwingen en tegelijkertijd de efficiëntie te behouden. Experimenten op gangbare GUI-navigatiebenchmarks tonen sterke prestaties aan. Ondanks zijn kleinere omvang overtreft HiconAgent-3B GUI-R1-7B met +8,46 procent grondingsnauwkeurigheid en +11,32 procent stapsuccespercentage op GUI-Odyssey, terwijl het vergelijkbare resultaten behaalt op AndroidControl en AITW met een rekenkundige versnelling tot 2,47x en een FLOPs-reductie van 60 procent.
English
Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.