ChatPaper.aiChatPaper

HiconAgent: GUIエージェントのための履歴コンテキスト対応ポリシー最適化

HiconAgent: History Context-aware Policy Optimization for GUI Agents

December 1, 2025
著者: Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao
cs.AI

要旨

グラフィカルユーザーインタフェース(GUI)エージェントが逐次的なナビゲーションタスクを実行するには、履歴コンテキストを効果的に活用する必要がある。過去の行動と観察結果を組み込むことで意思決定を改善できるが、履歴全体を単純に使用すると計算オーバーヘッドが過剰となり、無関係な情報による注意散漫を招く。この問題に対処するため、我々は履歴情報を効率的かつ効果的に活用するために、履歴コンテキスト認識方策最適化(HCPO)で学習させたGUIエージェント「HiconAgent」を提案する。HCPOは、二つの相補的なコンポーネントを通じて、サンプリングと方策更新の両方における履歴の使用法を最適化する:(1)動的コンテキストサンプリング(DCS)は、サンプリング中に可変長の履歴をエージェントに提示し、最も関連性の高いコンテキストを適応的に利用できるようにする;(2)アンカー誘導履歴圧縮(AHC)は、圧縮ブランチが履歴の観察結果を除去しながらも情報フローのアンカーとして履歴行動を保持するデュアルブランチ戦略により、方策更新段階を改良する。圧縮ブランチと非圧縮ブランチは、履歴強化アライメント損失を介して結合され、効率性を維持しつつ一貫した履歴利用を強制する。主要なGUIナビゲーションベンチマークでの実験により、優れた性能が実証された。HiconAgent-3Bは、モデルサイズが小さいにもかかわらず、GUI-OdysseyにおいてGUI-R1-7Bを接地精度で+8.46%、ステップ成功率で+11.32%上回り、AndroidControlおよびAITWでは最大2.47倍の計算速度向上と60%のFLOPs削減を達成しつつ、同等の結果を得た。
English
Graphical User Interface (GUI) agents require effective use of historical context to perform sequential navigation tasks. While incorporating past actions and observations can improve decision making, naive use of full history leads to excessive computational overhead and distraction from irrelevant information. To address this, we introduce HiconAgent, a GUI agent trained with History Context-aware Policy Optimization (HCPO) for efficient and effective utilization of historical information. HCPO optimizes history usage in both sampling and policy updates through two complementary components: (1) Dynamic Context Sampling (DCS) presents the agent with variable length histories during sampling, enabling adaptive use of the most relevant context; (2) Anchor-guided History Compression (AHC) refines the policy update phase with a dual branch strategy where the compressed branch removes history observations while keeping history actions as information flow anchors. The compressed and uncompressed branches are coupled through a history-enhanced alignment loss to enforce consistent history usage while maintaining efficiency. Experiments on mainstream GUI navigation benchmarks demonstrate strong performance. Despite being smaller, HiconAgent-3B outperforms GUI-R1-7B by +8.46 percent grounding accuracy and +11.32 percent step success rate on GUI-Odyssey, while achieving comparable results on AndroidControl and AITW with up to 2.47x computational speedup and 60 percent FLOPs reduction.
PDF31December 3, 2025