UI-Copilot: 도구 통합 정책 최적화를 통한 장기간 GUI 자동화 발전
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
April 15, 2026
저자: Zhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
초록
MLLM 기반 GUI 에이전트는 복잡한 사용자 인터페이스 상호작용 과제에서 강력한 능력을 입증했습니다. 그러나 장기적 시나리오에서는 이러한 에이전트가 본래 능력을 벗어난 과제를 부담하게 되어 메모리 저하, 진행 상황 혼동, 수학적 환각 문제를 겪으면서 여전히 어려움에 직면해 있습니다. 이러한 문제를 해결하기 위해 우리는 GUI 에이전트가 작업 실행에 집중하는 동안 경량 코파일럿이 메모리 검색 및 수치 계산을 위한 주문형 지원을 제공하는 협업 프레임워크인 UI-Copilot을 제안합니다. 우리는 지속적인 관찰 정보와 일시적인 실행 컨텍스트를 분리하는 메모리 디커플링을 도입하고, 정책 에이전트가 작업 요구에 따라 코파일럿을 검색기(Retriever) 또는 계산기(Calculator)로 선택적으로 호출하도록 학습시킵니다. 효과적인 도구 호출 학습을 위해 우리는 단일 턴 예측을 통해 도구 선택을, 온-정책 다중 턴 롤아웃을 통해 작업 실행을 각각 최적화하는 TIPO(Tool-Integrated Policy Optimization)를 제안합니다. 실험 결과, UI-Copilot-7B는 도전적인 MemGUI-Bench에서 GUI-Owl-7B 및 UI-TARS-1.5-7B와 같은 강력한 7B 규모 GUI 에이전트들을 능가하는 최첨단 성능을 달성했습니다. 또한 UI-Copilot-7B는 AndroidWorld에서 기본 Qwen 모델 대비 17.1%의 절대적 성능 향상을 보여주며, 실제 GUI 작업에 대한 UI-Copilot의 강력한 일반화 능력을 입증했습니다.
English
MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.