UI-Copilot: ツール統合型ポリシー最適化による長期的GUI自動化の推進
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
April 15, 2026
著者: Zhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
要旨
MLLMベースのGUIエージェントは、複雑なユーザーインターフェース操作タスクにおいて優れた能力を発揮することが実証されている。しかし、長時間にわたるシナリオでは、これらのエージェントが本来の能力を超えるタスクを負わされることで、メモリの劣化、進捗混乱、数値的幻覚といった課題に直面し、依然として困難が伴う。これらの課題に対処するため、本論文ではUI-Copilotを提案する。これは、GUIエージェントがタスク実行に集中し、軽量なコパイロットが必要に応じてメモリ検索と数値計算を支援する協調フレームワークである。我々は、永続的な観察情報と一時的な実行コンテキストを分離するメモリ分離を導入し、ポリシーエージェントがタスク要求に基づいてRetrieverまたはCalculatorとしてコパイロットを選択的に呼び出すように学習させる。効果的なツール呼び出し学習を実現するため、ツール選択を単一ターン予測で、タスク実行を方策オン型の多ターンロールアウトで別々に最適化するTool-Integrated Policy Optimization(TIPO)を提案する。実験結果では、UI-Copilot-7Bが挑戦的なMemGUI-Benchにおいて、GUI-Owl-7BやUI-TARS-1.5-7Bなどの強力な7B規模GUIエージェントを上回り、最先端の性能を達成した。さらに、UI-Copilot-7BはAndroidWorldにおいてベースモデルであるQwenと比較して17.1%の絶対的な性能向上を実現し、実世界のGUIタスクに対するUI-Copilotの強力な汎化性能を明らかにした。
English
MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.