UI-Copilot : Faire progresser l'automatisation d'interface graphique sur des horizons longs via l'optimisation de politique intégrant des outils
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
April 15, 2026
Auteurs: Zhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Résumé
Les agents d'interface graphique basés sur MLLM ont démontré de solides capacités dans les tâches d'interaction complexes avec les interfaces utilisateur. Cependant, les scénarios à long terme restent difficiles, car ces agents sont chargés de tâches dépassant leurs capacités intrinsèques, souffrant de dégradation de la mémoire, de confusion dans la progression et d'hallucinations mathématiques. Pour relever ces défis, nous présentons UI-Copilot, un cadre collaboratif où l'agent d'interface se concentre sur l'exécution des tâches tandis qu'un copilote léger fournit une assistance à la demande pour la récupération de mémoire et le calcul numérique. Nous introduisons le découplage de la mémoire pour séparer les observations persistantes du contexte d'exécution transitoire, et formons l'agent de politique à invoquer sélectivement le copilote en tant que Retrieveur ou Calculateur selon les besoins de la tâche. Pour permettre un apprentissage efficace de l'invocation d'outils, nous proposons l'Optimisation de Politique à Outils Intégrés (TIPO), qui optimise séparément la sélection d'outils par prédiction mono-tour et l'exécution des tâches par déploiements multi-tours sur politique. Les résultats expérimentaux montrent que UI-Copilot-7B atteint des performances de pointe sur le benchmark difficile MemGUI-Bench, surpassant des agents d'interface graphique puissants à l'échelle 7B tels que GUI-Owl-7B et UI-TARS-1.5-7B. De plus, UI-Copilot-7B réalise une amélioration absolue de 17,1% sur AndroidWorld par rapport au modèle de base Qwen, soulignant la forte généralisation d'UI-Copilot aux tâches réelles d'interface graphique.
English
MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.