HiconAgent: Otimização de Políticas com Consciência de Contexto Histórico para Agentes de Interface Gráfica

Resumo

Os agentes de Interface Gráfica do Utilizador (GUI) requerem a utilização eficaz de contexto histórico para realizar tarefas de navegação sequencial. Embora a incorporação de ações e observações passadas possa melhorar a tomada de decisão, a utilização ingénua do histórico completo leva a uma sobrecarga computacional excessiva e a distrações com informações irrelevantes. Para resolver isto, apresentamos o HiconAgent, um agente de GUI treinado com a Otimização de Políticas Consciente do Contexto Histórico (HCPO) para uma utilização eficiente e eficaz da informação histórica. A HCPO otimiza o uso do histórico tanto na amostragem como nas atualizações da política através de dois componentes complementares: (1) A Amostragem de Contexto Dinâmico (DCS) apresenta ao agente históricos de comprimento variável durante a amostragem, permitindo a utilização adaptativa do contexto mais relevante; (2) A Compressão de Histórico Orientada por Âncoras (AHC) aperfeiçoa a fase de atualização da política com uma estratégia de ramo duplo, onde o ramo comprimido remove observações do histórico, mantendo as ações históricas como âncoras do fluxo de informação. Os ramos comprimido e não comprimido são acoplados através de uma perda de alinhamento aprimorada pelo histórico para impor uma utilização consistente do histórico, mantendo a eficiência. Experiências em *benchmarks* mainstream de navegação GUI demonstram um forte desempenho. Apesar de ser menor, o HiconAgent-3B supera o GUI-R1-7B em +8,46% de precisão de aterragem (*grounding accuracy*) e +11,32% de taxa de sucesso por passo no GUI-Odyssey, ao mesmo tempo que atinge resultados comparáveis no AndroidControl e AITW com uma aceleração computacional de até 2,47x e uma redução de 60% nas FLOPs.

English

Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.