UI-Copilot: Avanzando en la Automatización de GUI de Largo Horizonte mediante Optimización de Políticas Integrada con Herramientas

Resumen

Los agentes de interfaz gráfica basados en MLLM han demostrado sólidas capacidades en tareas complejas de interacción con interfaces de usuario. Sin embargo, los escenarios de largo horizonte siguen siendo un desafío, ya que estos agentes se ven sobrecargados con tareas que superan sus capacidades intrínsecas, sufriendo degradación de memoria, confusión de progreso y alucinaciones numéricas. Para abordar estos desafíos, presentamos UI-Copilot, un marco colaborativo donde el agente de interfaz gráfica se centra en la ejecución de tareas mientras un copiloto ligero proporciona asistencia bajo demanda para recuperación de memoria y cálculo numérico. Introducimos la desvinculación de memoria para separar las observaciones persistentes del contexto de ejecución transitorio, y entrenamos al agente de políticas para invocar selectivamente al copiloto como Recuperador o Calculador según las demandas de la tarea. Para permitir un aprendizaje efectivo de invocación de herramientas, proponemos la Optimización de Políticas con Herramientas Integradas (TIPO), que optimiza por separado la selección de herramientas mediante predicción de un solo turno y la ejecución de tareas mediante desarrollos multiturno basados en políticas. Los resultados experimentales muestran que UI-Copilot-7B logra un rendimiento de vanguardia en el desafiante MemGUI-Bench, superando a agentes de interfaz gráfica sólidos de escala 7B como GUI-Owl-7B y UI-TARS-1.5-7B. Además, UI-Copilot-7B ofrece una mejora absoluta del 17.1% en AndroidWorld sobre el modelo base Qwen, destacando la fuerte generalización de UI-Copilot para tareas reales de interfaz gráfica.

English

MLLM-based GUI agents have demonstrated strong capabilities in complex user interface interaction tasks. However, long-horizon scenarios remain challenging, as these agents are burdened with tasks beyond their intrinsic capabilities, suffering from memory degradation, progress confusion, and math hallucination. To address these challenges, we present UI-Copilot, a collaborative framework where the GUI agent focuses on task execution while a lightweight copilot provides on-demand assistance for memory retrieval and numerical computation. We introduce memory decoupling to separate persistent observations from transient execution context, and train the policy agent to selectively invoke the copilot as Retriever or Calculator based on task demands. To enable effective tool invocation learning, we propose Tool-Integrated Policy Optimization (TIPO), which separately optimizes tool selection through single-turn prediction and task execution through on-policy multi-turn rollouts. Experimental results show that UI-Copilot-7B achieves state-of-the-art performance on challenging MemGUI-Bench, outperforming strong 7B-scale GUI agents such as GUI-Owl-7B and UI-TARS-1.5-7B. Moreover, UI-Copilot-7B delivers a 17.1% absolute improvement on AndroidWorld over the base Qwen model, highlighting UI-Copilot's strong generalization to real-world GUI tasks.

UI-Copilot: Avanzando en la Automatización de GUI de Largo Horizonte mediante Optimización de Políticas Integrada con Herramientas

UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Resumen

Support