ChatPaper.aiChatPaper

UI-S1: Avanzando en la Automatización de Interfaces Gráficas mediante Aprendizaje por Refuerzo Semi-Online

UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

September 15, 2025
Autores: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang
cs.AI

Resumen

Los agentes de Interfaz Gráfica de Usuario (GUI) han demostrado un progreso notable en la automatización de interacciones complejas con la interfaz de usuario mediante aprendizaje por refuerzo. Sin embargo, los enfoques actuales enfrentan un dilema fundamental: el RL offline permite un entrenamiento estable en trayectorias previamente recolectadas, pero tiene dificultades para ejecutar tareas de múltiples pasos debido a la falta de señales de recompensa a nivel de trayectoria; el RL online captura estas señales a través de la interacción con el entorno, pero sufre de recompensas dispersas y costos de implementación prohibitivos. Para abordar este problema, presentamos el Aprendizaje por Refuerzo Semi-online, un paradigma novedoso que simula el RL online en trayectorias offline. Durante cada proceso de despliegue, preservamos la salida original del modelo dentro del diálogo de múltiples turnos, donde un Módulo de Parche adaptativamente recupera la divergencia entre las trayectorias de despliegue y las expertas. Para capturar señales de entrenamiento a largo plazo, el RL Semi-online introduce retornos futuros descontados en el cálculo de la recompensa y optimiza la política con ventajas ponderadas a nivel de paso y episodio. Además, introducimos el Rendimiento Semi-Online (SOP), una métrica que se alinea mejor con el rendimiento online real, sirviendo como un proxy práctico y efectivo para la evaluación en el mundo real. Los experimentos muestran que nuestro RL Semi-online logra un rendimiento SOTA entre los modelos de 7B en cuatro benchmarks dinámicos, con ganancias significativas sobre el modelo base (por ejemplo, +12.0% en AndroidWorld, +23.8% en AITW), demostrando un progreso significativo en cerrar la brecha entre la eficiencia del entrenamiento offline y el razonamiento online de múltiples turnos. El código está disponible en https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
English
Graphical User Interface (GUI) agents have demonstrated remarkable progress in automating complex user interface interactions through reinforcement learning. However, current approaches face a fundamental dilemma: offline RL enables stable training on pre-collected trajectories, but struggles with multi-step task execution for lack of trajectory-level reward signals; online RL captures these signals through environment interaction, but suffers from sparse rewards and prohibitive deployment costs. To address it, we present Semi-online Reinforcement Learning, a novel paradigm that simulates online RL on offline trajectories. During each rollout process, we preserve the original model output within the multi-turn dialogue, where a Patch Module adaptively recovers the divergence between rollout and expert trajectories. To capture long-term training signals, Semi-online RL introduces discounted future returns into the reward computation and optimizes the policy with weighted step-level and episode-level advantages. We further introduce Semi-Online Performance (SOP), a metric that aligns better with true online performance, serving as a practical and effective proxy for real-world evaluation. Experiments show that ours Semi-online RL achieves SOTA performance among 7B models across four dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging the gap between offline training efficiency and online multi-turn reasoning. The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
PDF413September 16, 2025