UI-Copilot: Avançando na Automação de GUI de Longo Horizonte via Otimização de Política Integrada a Ferramentas

Resumo

Os agentes de interface gráfica baseados em MLLM demonstraram capacidades robustas em tarefas complexas de interação com interfaces de utilizador. No entanto, cenários de longo horizonte permanecem desafiadores, uma vez que estes agentes são sobrecarregados com tarefas além das suas capacidades intrínsecas, sofrendo de degradação de memória, confusão de progresso e alucinações matemáticas. Para enfrentar estes desafios, apresentamos o UI-Copilot, uma estrutura colaborativa na qual o agente de interface gráfica se concentra na execução de tarefas, enquanto um copiloto leve fornece assistência sob demanda para recuperação de memória e cálculo numérico. Introduzimos a dissociação de memória para separar observações persistentes do contexto de execução transitório, e treinamos o agente de política para invocar seletivamente o copiloto como Recuperador ou Calculadora com base nas exigências da tarefa. Para permitir uma aprendizagem eficaz de invocação de ferramentas, propomos a Otimização de Política Integrada com Ferramentas (TIPO), que otimiza separadamente a seleção de ferramentas através de previsão de turno único e a execução de tarefas através de rollouts multi-turno baseados em política. Resultados experimentais mostram que o UI-Copilot-7B alcança desempenho state-of-the-art no desafiador MemGUI-Bench, superando agentes de interface gráfica robustos de escala 7B, como o GUI-Owl-7B e o UI-TARS-1.5-7B. Além disso, o UI-Copilot-7B proporciona uma melhoria absoluta de 17,1% no AndroidWorld em relação ao modelo base Qwen, destacando a forte generalização do UI-Copilot para tarefas reais de interface gráfica.

English

MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.

UI-Copilot: Avançando na Automação de GUI de Longo Horizonte via Otimização de Política Integrada a Ferramentas

UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Resumo

Support