HiconAgent: Optimización de Políticas con Conciencia del Contexto Histórico para Agentes de Interfaz Gráfica
HiconAgent: History Context-aware Policy Optimization for GUI Agents
December 1, 2025
Autores: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao
cs.AI
Resumen
Los agentes de interfaz gráfica de usuario (GUI) requieren un uso efectivo del contexto histórico para realizar tareas de navegación secuencial. Si bien incorporar acciones y observaciones pasadas puede mejorar la toma de decisiones, el uso ingenuo del historial completo genera una sobrecarga computacional excesiva y distracción por información irrelevante. Para abordar esto, presentamos HiconAgent, un agente GUI entrenado con Optimización de Políticas Consciente del Contexto Histórico (HCPO) para un uso eficiente y efectivo de la información histórica. HCPO optimiza el uso del historial tanto en el muestreo como en las actualizaciones de políticas mediante dos componentes complementarios: (1) El Muestreo Dinámico de Contexto (DCS) presenta al agente historiales de longitud variable durante el muestreo, permitiendo un uso adaptativo del contexto más relevante; (2) La Compresión de Historial Guiada por Anclas (AHC) refina la fase de actualización de políticas con una estrategia de doble rama donde la rama comprimida elimina las observaciones del historial manteniendo las acciones históricas como anclas de flujo de información. Las ramas comprimida y no comprimida se acoplan mediante una pérdida de alineación mejorada con historial para imponer un uso consistente del historial manteniendo la eficiencia. Los experimentos en benchmarks principales de navegación GUI demuestran un rendimiento sólido. A pesar de ser más pequeño, HiconAgent-3B supera a GUI-R1-7B en +8.46% de precisión de grounding y +11.32% de tasa de éxito por paso en GUI-Odyssey, mientras que logra resultados comparables en AndroidControl y AITW con hasta 2.47x de aceleración computacional y una reducción del 60% en FLOPS.
English
Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.