継続的GUIエージェント
Continual GUI Agents
January 28, 2026
著者: Ziwei Liu, Borui Kang, Hangjie Yuan, Zixiang Zhao, Wei Li, Yifan Zhu, Tao Feng
cs.AI
要旨
デジタル環境(データ分布)は常に流動的であり、新しいGUIデータが時間とともに到来し、新たなドメインや解像度をもたらすため、静的な環境で学習されたエージェントの性能は劣化する。本研究では、GUIエージェントが変化するドメインや解像度のもとで継続学習を行うことを要求する新たなタスク「Continual GUI Agents」を提案する。既存手法は、流動的なシナリオにおけるUIインタラクションポイントと領域の多様性のため、GUI分布が時間とともに変化するにつれて安定したグラウンディングを維持できないことがわかった。この問題に対処するため、我々はGUI-Anchoring in Flux (GUI-AiF) を提案する。これは、Anchoring Point Reward in Flux (APR-iF) と Anchoring Region Reward in Flux (ARR-iF) という2つの新規報酬を通じて継続学習を安定化させる強化学習ファインチューニングフレームワークである。これらの報酬は、エージェントが変化するインタラクションポイントと領域に適応するよう導き、既存の報酬戦略が静的なグラウンディング手がかり(例:固定座標や要素スケール)に過剰適応する傾向を軽減する。大規模な実験により、GUI-AiFが最先端のベースライン手法を凌駕することを示す。本研究は、GUIエージェントにおける最初の継続学習フレームワークを確立し、継続的GUIエージェントのための強化学習ファインチューニングの未開拓の可能性を明らかにする。
English
As digital environments (data distribution) are in flux, with new GUI data arriving over time-introducing new domains or resolutions-agents trained on static environments deteriorate in performance. In this work, we introduce Continual GUI Agents, a new task that requires GUI agents to perform continual learning under shifted domains and resolutions. We find existing methods fail to maintain stable grounding as GUI distributions shift over time, due to the diversity of UI interaction points and regions in fluxing scenarios. To address this, we introduce GUI-Anchoring in Flux (GUI-AiF), a new reinforcement fine-tuning framework that stabilizes continual learning through two novel rewards: Anchoring Point Reward in Flux (APR-iF) and Anchoring Region Reward in Flux (ARR-iF). These rewards guide the agents to align with shifting interaction points and regions, mitigating the tendency of existing reward strategies to over-adapt to static grounding cues (e.g., fixed coordinates or element scales). Extensive experiments show GUI-AiF surpasses state-of-the-art baselines. Our work establishes the first continual learning framework for GUI agents, revealing the untapped potential of reinforcement fine-tuning for continual GUI Agents.