ChatPaper.aiChatPaper

HiconAgent: GUI 에이전트를 위한 역사적 맥락 인지 정책 최적화

HiconAgent: History Context-aware Policy Optimization for GUI Agents

December 1, 2025
저자: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao
cs.AI

초록

그래픽 사용자 인터페이스(GUI) 에이전트는 순차적 탐색 작업을 수행하기 위해 효과적인 역사적 컨텍스트 활용이 필요합니다. 과거 행동과 관측 결과를 통합하면 의사 결정을 개선할 수 있지만, 전체 기록을 단순히 사용하는 것은 과도한 계산 부하와 관련 없는 정보로 인한 주의 분산을 초래합니다. 이를 해결하기 위해 우리는 역사적 정보를 효율적이고 효과적으로 활용하도록 History Context-aware Policy Optimization (HCPO)으로 훈련된 GUI 에이전트인 HiconAgent를 소개합니다. HCPO는 두 가지 상호 보완적인 구성 요소를 통해 샘플링 및 정책 업데이트 모두에서 기록 사용을 최적화합니다: (1) Dynamic Context Sampling (DCS)은 샘플링 중 에이전트에 가변 길이 기록을 제공하여 가장 관련성 높은 컨텍스트의 적응형 사용을 가능하게 합니다; (2) Anchor-guided History Compression (AHC)은 기록 관측 정보는 제거하되 정보 흐름의 앵커 역할로 기록 행동은 유지하는 이중 브랜치 전략으로 정책 업데이트 단계를 개선합니다. 압축 및 비압축 브랜치는 효율성을 유지하면서 일관된 기록 사용을 강제하기 위한 기록 강화 정렬 손실(history-enhanced alignment loss)을 통해 결합됩니다. 주류 GUI 탐색 벤치마크에서의 실험은 강력한 성능을 입증합니다. HiconAgent-3B는 규모가 더 작음에도 불구하고, GUI-Odyssey에서 GUI-R1-7B 대비 +8.46%의 그라운딩 정확도와 +11.32%의 단계 성공율을 달성하는 동시에, AndroidControl 및 AITW에서 최대 2.47배의 계산 속도 향상과 60%의 FLOPs 감소로 유사한 결과를 얻습니다.
English
Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.
PDF31December 3, 2025