UI-S1 : Progrès de l'automatisation des interfaces graphiques via l'apprentissage par renforcement semi-online

papers.abstract

Les agents d'interface graphique (GUI) ont démontré des progrès remarquables dans l'automatisation des interactions complexes avec les interfaces utilisateurs grâce à l'apprentissage par renforcement. Cependant, les approches actuelles sont confrontées à un dilemme fondamental : l'apprentissage par renforcement hors ligne permet un entraînement stable sur des trajectoires pré-collectées, mais peine à exécuter des tâches en plusieurs étapes en raison de l'absence de signaux de récompense au niveau des trajectoires ; l'apprentissage par renforcement en ligne capture ces signaux par interaction avec l'environnement, mais souffre de récompenses rares et de coûts de déploiement prohibitifs. Pour y remédier, nous présentons l'apprentissage par renforcement semi-en ligne, un nouveau paradigme qui simule l'apprentissage en ligne sur des trajectoires hors ligne. Durant chaque processus de déploiement, nous préservons la sortie originale du modèle dans le dialogue multi-tours, où un module de correction adaptatif comble l'écart entre les trajectoires de déploiement et celles des experts. Pour capturer les signaux d'entraînement à long terme, l'apprentissage semi-en ligne intègre des retours futurs actualisés dans le calcul de la récompense et optimise la politique avec des avantages pondérés au niveau des étapes et des épisodes. Nous introduisons également la Performance Semi-En Ligne (SOP), une métrique qui s'aligne mieux sur la performance en ligne réelle, servant de proxy pratique et efficace pour l'évaluation en conditions réelles. Les expériences montrent que notre apprentissage semi-en ligne atteint des performances de pointe parmi les modèles de 7 milliards de paramètres sur quatre benchmarks dynamiques, avec des gains significatifs par rapport au modèle de base (par exemple, +12,0 % sur AndroidWorld, +23,8 % sur AITW), démontrant des progrès significatifs dans la réduction de l'écart entre l'efficacité de l'entraînement hors ligne et le raisonnement multi-tours en ligne. Le code est disponible à l'adresse suivante : https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.

English

Graphical User Interface (GUI) agents have demonstrated remarkable progress in automating complex user interface interactions through reinforcement learning. However, current approaches face a fundamental dilemma: offline RL enables stable training on pre-collected trajectories, but struggles with multi-step task execution for lack of trajectory-level reward signals; online RL captures these signals through environment interaction, but suffers from sparse rewards and prohibitive deployment costs. To address it, we present Semi-online Reinforcement Learning, a novel paradigm that simulates online RL on offline trajectories. During each rollout process, we preserve the original model output within the multi-turn dialogue, where a Patch Module adaptively recovers the divergence between rollout and expert trajectories. To capture long-term training signals, Semi-online RL introduces discounted future returns into the reward computation and optimizes the policy with weighted step-level and episode-level advantages. We further introduce Semi-Online Performance (SOP), a metric that aligns better with true online performance, serving as a practical and effective proxy for real-world evaluation. Experiments show that ours Semi-online RL achieves SOTA performance among 7B models across four dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging the gap between offline training efficiency and online multi-turn reasoning. The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.

UI-S1 : Progrès de l'automatisation des interfaces graphiques via l'apprentissage par renforcement semi-online

UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

papers.abstract

Support