UI-Copilot: Avanzamento nell'Automazione GUI a Lungo Orizzonte tramite Ottimizzazione delle Politiche Integrata con Strumenti
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
April 15, 2026
Autori: Zhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Abstract
Gli agenti GUI basati su MLLM hanno dimostrato notevoli capacità nelle attività complesse di interazione con le interfacce utente. Tuttavia, gli scenari a lungo orizzonte rimangono impegnativi, poiché questi agenti sono gravati da compiti che superano le loro capacità intrinseche, soffrendo di degrado della memoria, confusione del progresso e allucinazioni matematiche. Per affrontare queste sfide, presentiamo UI-Copilot, un framework collaborativo in cui l'agente GUI si concentra sull'esecuzione dei compiti mentre un copilota leggero fornisce assistenza on-demand per il recupero della memoria e il calcolo numerico. Introduciamo il disaccoppiamento della memoria per separare le osservazioni persistenti dal contesto esecutivo transitorio, e addestriamo l'agente policy a richiamare selettivamente il copilota come Retriever o Calculator in base alle esigenze del compito. Per abilitare un apprendimento efficace dell'invocazione degli strumenti, proponiamo la Policy Optimization con Strumenti Integrati (TIPO), che ottimizza separatamente la selezione degli strumenti attraverso previsioni a turno singolo e l'esecuzione dei compiti attraverso rollout multi-turno on-policy. I risultati sperimentali mostrano che UI-Copilot-7B raggiunge prestazioni all'avanguardia sul complesso MemGUI-Bench, superando potenti agenti GUI di scala 7B come GUI-Owl-7B e UI-TARS-1.5-7B. Inoltre, UI-Copilot-7B fornisce un miglioramento assoluto del 17,1% su AndroidWorld rispetto al modello base Qwen, evidenziando la forte generalizzazione di UI-Copilot verso compiti GUI del mondo reale.
English
MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.