ChatPaper.aiChatPaper

UI-S1: Fortschritte in der GUI-Automatisierung durch semi-online Reinforcement Learning

UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

September 15, 2025
papers.authors: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang
cs.AI

papers.abstract

Graphical User Interface (GUI)-Agenten haben bemerkenswerte Fortschritte bei der Automatisierung komplexer Benutzeroberflächeninteraktionen durch Reinforcement Learning gezeigt. Allerdings stehen aktuelle Ansätze vor einem grundlegenden Dilemma: Offline RL ermöglicht ein stabiles Training auf vorab gesammelten Trajektorien, scheitert jedoch bei der Ausführung mehrstufiger Aufgaben aufgrund fehlender belohnungsbasierter Signale auf Trajektorienebene; Online RL erfasst diese Signale durch Interaktion mit der Umgebung, leidet jedoch unter spärlichen Belohnungen und prohibitiv hohen Bereitstellungskosten. Um dieses Problem zu lösen, präsentieren wir Semi-Online Reinforcement Learning, ein neuartiges Paradigma, das Online RL auf Offline-Trajektorien simuliert. Während jedes Rollout-Prozesses bewahren wir die ursprüngliche Modellausgabe innerhalb des mehrstufigen Dialogs, wobei ein Patch-Modul die Abweichung zwischen Rollout- und Experten-Trajektorien adaptiv korrigiert. Um langfristige Trainingssignale zu erfassen, führt Semi-Online RL diskontierte zukünftige Erträge in die Belohnungsberechnung ein und optimiert die Strategie mit gewichteten schritt- und episodenbasierten Vorteilen. Wir führen außerdem Semi-Online Performance (SOP) ein, eine Metrik, die besser mit der tatsächlichen Online-Leistung übereinstimmt und als praktischer und effektiver Proxy für die Bewertung in der realen Welt dient. Experimente zeigen, dass unser Semi-Online RL Spitzenleistungen unter 7B-Modellen in vier dynamischen Benchmarks erreicht, mit signifikanten Gewinnen gegenüber dem Basismodell (z. B. +12,0 % auf AndroidWorld, +23,8 % auf AITW), was einen erheblichen Fortschritt bei der Überbrückung der Lücke zwischen Offline-Trainings effizienz und Online-Multi-Turn-Reasoning demonstriert. Der Code ist verfügbar unter https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
English
Graphical User Interface (GUI) agents have demonstrated remarkable progress in automating complex user interface interactions through reinforcement learning. However, current approaches face a fundamental dilemma: offline RL enables stable training on pre-collected trajectories, but struggles with multi-step task execution for lack of trajectory-level reward signals; online RL captures these signals through environment interaction, but suffers from sparse rewards and prohibitive deployment costs. To address it, we present Semi-online Reinforcement Learning, a novel paradigm that simulates online RL on offline trajectories. During each rollout process, we preserve the original model output within the multi-turn dialogue, where a Patch Module adaptively recovers the divergence between rollout and expert trajectories. To capture long-term training signals, Semi-online RL introduces discounted future returns into the reward computation and optimizes the policy with weighted step-level and episode-level advantages. We further introduce Semi-Online Performance (SOP), a metric that aligns better with true online performance, serving as a practical and effective proxy for real-world evaluation. Experiments show that ours Semi-online RL achieves SOTA performance among 7B models across four dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging the gap between offline training efficiency and online multi-turn reasoning. The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
PDF473September 16, 2025