UI-Copilot: Fortschritte bei der langfristigen GUI-Automatisierung durch werkzeugintegrierte Richtlinienoptimierung
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
April 15, 2026
Autoren: Zhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Zusammenfassung
MLLM-basierte GUI-Agenten haben beeindruckende Fähigkeiten bei komplexen Benutzeroberflächeninteraktionen gezeigt. Dennoch bleiben langfristige Szenarien herausfordernd, da diese Agenten mit Aufgaben belastet werden, die über ihre intrinsischen Fähigkeiten hinausgehen, was zu Gedächtnisabbau, Fortschrittsverwirrung und mathematischen Halluzinationen führt. Um diese Herausforderungen zu bewältigen, stellen wir UI-Copilot vor – ein kollaboratives Framework, bei dem der GUI-Agent sich auf die Aufgabendurchführung konzentriert, während ein leichtgewichtiger Copilot bedarfsgerechte Unterstützung für Gedächtnisabruf und numerische Berechnungen bietet. Wir führen Memory Decoupling ein, um persistente Beobachtungen vom transienten Ausführungskontext zu trennen, und trainieren den Policy-Agenten, den Copilot selektiv als Retriever oder Calculator basierend auf den Aufgabenanforderungen aufzurufen. Um effektives Tool-Invocation-Lernen zu ermöglichen, schlagen wir Tool-Integrated Policy Optimization (TIPO) vor, das die Tool-Auswahl durch Einzelschritt-Vorhersage und die Aufgabendurchführung durch On-Policy-Multi-Step-Rollouts separat optimiert. Experimentelle Ergebnisse zeigen, dass UI-Copilot-7B auf dem anspruchsvollen MemGUI-Bench State-of-the-Art-Leistung erzielt und starke 7B-skalige GUI-Agenten wie GUI-Owl-7B und UI-TARS-1.5-7B übertrifft. Zudem erzielt UI-Copilot-7B auf AndroidWorld eine absolute Verbesserung von 17,1 % gegenüber dem Basis-Qwen-Modell, was die starke Generalisierungsfähigkeit von UI-Copilot für reale GUI-Aufgaben unterstreicht.
English
MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.