UI-Copilot: Vooruitgang in GUI-automatisering op lange termijn via Tool-Integrated Policy Optimization
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
April 15, 2026
Auteurs: Zhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Samenvatting
MLLM-gebaseerde GUI-agenten hebben sterke capaciteiten getoond in complexe gebruikersinterface-interactietaken. Lange-termijnscenario's blijven echter uitdagend, omdat deze agenten worden belast met taken die hun intrinsieke mogelijkheden te boven gaan, wat leidt tot geheugendegradatie, voortgangsverwarring en wiskundige hallucinaties. Om deze uitdagingen aan te pakken, presenteren wij UI-Copilot, een collaboratief raamwerk waarin de GUI-agent zich richt op taakuitvoering, terwijl een lichtgewicht copilot on-demand ondersteuning biedt voor geheugenretrieval en numerieke berekeningen. We introduceren geheugenontkoppeling om persistente observaties te scheiden van het vluchtige uitvoeringscontext, en trainen het beleidsagent om selectief de copilot aan te roepen als Retriever of Calculator op basis van taakeisen. Om effectief gereedschapsaanroepleren mogelijk te maken, stellen we Tool-Integrated Policy Optimization (TIPO) voor, dat gereedschapsselectie afzonderlijk optimaliseert via eenmalige voorspelling en taakuitvoering via on-policy multi-turn rollouts. Experimentele resultaten tonen aan dat UI-Copilot-7B state-of-the-art prestaties bereikt op de uitdagende MemGUI-Bench, en sterke 7B-schaal GUI-agenten zoals GUI-Owl-7B en UI-TARS-1.5-7B overtreft. Bovendien behaalt UI-Copilot-7B een absolute verbetering van 17,1% op AndroidWorld ten opzichte van het basismodel Qwen, wat de sterke generalisatie van UI-Copilot naar real-world GUI-taken benadrukt.
English
MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.