ChatPaper.aiChatPaper

HiconAgent: Historienkontextbewusste Politikoptimierung für GUI-Agenten

HiconAgent: History Context-aware Policy Optimization for GUI Agents

December 1, 2025
papers.authors: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao
cs.AI

papers.abstract

Agenten für grafische Benutzeroberflächen (GUI) benötigen eine effektive Nutzung historischer Kontextinformationen, um sequenzielle Navigationsaufgaben durchzuführen. Während die Einbeziehung vergangener Aktionen und Beobachtungen die Entscheidungsfindung verbessern kann, führt eine naive Verwendung des vollständigen Verlaufs zu übermäßigem Rechenaufwand und Ablenkung durch irrelevante Informationen. Um dies zu adressieren, stellen wir HiconAgent vor, einen GUI-Agenten, der mit History Context-aware Policy Optimization (HCPO) für eine effiziente und effektive Nutzung historischer Informationen trainiert wurde. HCPO optimiert die Verlaufsnutzung sowohl bei der Stichprobenentnahme als auch bei Policy-Updates durch zwei komplementäre Komponenten: (1) Dynamic Context Sampling (DCS) präsentiert dem Agenten während der Stichprobenentnahme Verläufe variabler Länge, was eine adaptive Nutzung des relevantesten Kontexts ermöglicht; (2) Anchor-guided History Compression (AHC) verfeinert die Policy-Update-Phase mit einer Dual-Branch-Strategie, bei der der komprimierte Zweig Verlaufsbeobachtungen entfernt, während Verlaufshandlungen als Anker für den Informationsfluss beibehalten werden. Die komprimierten und unkomprimierten Zweige werden durch einen verlaufsverstärkten Ausrichtungsverlust gekoppelt, um eine konsistente Verlaufsnutzung bei gleichzeitiger Wahrung der Effizienz zu erzwingen. Experimente mit etablierten GUI-Navigationsbenchmarks demonstrieren eine starke Leistung. Trotz geringerer Größe übertrifft HiconAgent-3B GUI-R1-7B auf GUI-Odyssey um +8,46 Prozent Grounding-Genauigkeit und +11,32 Prozent Schritt-Erfolgsrate, während auf AndroidControl und AITW vergleichbare Ergebnisse bei bis zu 2,47-facher Rechenbeschleunigung und 60 Prozent FLOPs-Reduktion erzielt werden.
English
Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.
PDF31December 3, 2025