UI-Copilot: Развитие автоматизации графического интерфейса для длительных задач с помощью оптимизации политики, интегрированной с инструментами
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
April 15, 2026
Авторы: Zhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Аннотация
Агенты с графическим интерфейсом на основе MLLM продемонстрировали высокие возможности в решении сложных задач взаимодействия с пользовательским интерфейсом. Однако сценарии с длительным горизонтом планирования остаются сложными, поскольку эти агенты перегружены задачами, выходящими за пределы их внутренних возможностей, и страдают от деградации памяти, путаницы в ходе выполнения и математических галлюцинаций. Для решения этих проблем мы представляем UI-Copilot — коллаборативную框架, в которой GUI-агент фокусируется на выполнении задач, а облегченный ко-пилот обеспечивает помощь по запросу для извлечения из памяти и численных вычислений. Мы вводим разделение памяти для отделения постоянных наблюдений от временного контекста выполнения и обучаем агента политики выборочно вызывать ко-пилот в роли Извлекателя или Калькулятора в зависимости от требований задачи. Для обеспечения эффективного обучения вызову инструментов мы предлагаем Оптимизацию Политики с Интегрированными Инструментами (TIPO), которая раздельно оптимизирует выбор инструментов через одношаговое предсказание и выполнение задачи через многошаговые он-политичные прогоны. Результаты экспериментов показывают, что UI-Copilot-7B достигает наилучших результатов на сложном MemGUI-Bench, превосходя мощные GUI-агенты масштаба 7B, такие как GUI-Owl-7B и UI-TARS-1.5-7B. Более того, UI-Copilot-7B демонстрирует абсолютное улучшение на 17,1% на AndroidWorld по сравнению с базовой моделью Qwen, что подчеркивает сильную обобщающую способность UI-Copilot для реальных задач GUI.
English
MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.