UI-S1: Vooruitgang in GUI-automatisering via semi-online reinforcement learning
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
September 15, 2025
Auteurs: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang
cs.AI
Samenvatting
Graphical User Interface (GUI)-agents hebben aanzienlijke vooruitgang geboekt in het automatiseren van complexe gebruikersinterface-interacties via reinforcement learning. Huidige benaderingen staan echter voor een fundamenteel dilemma: offline RL maakt stabiele training mogelijk op vooraf verzamelde trajecten, maar worstelt met de uitvoering van meerstappentaken vanwege het ontbreken van trajectniveau beloningssignalen; online RL vangt deze signalen op via interactie met de omgeving, maar lijdt onder schaarse beloningen en prohibitief hoge implementatiekosten. Om dit aan te pakken, presenteren we Semi-online Reinforcement Learning, een nieuw paradigma dat online RL simuleert op offline trajecten. Tijdens elk rollout-proces behouden we de oorspronkelijke modeloutput binnen de meerzijdige dialoog, waarbij een Patch Module adaptief de divergentie tussen rollout- en experttrajecten herstelt. Om langetermijntrainingssignalen vast te leggen, introduceert Semi-online RL verdisconteerde toekomstige opbrengsten in de beloningsberekening en optimaliseert het beleid met gewogen stapniveau- en episodeniveau-voordelen. We introduceren verder Semi-Online Performance (SOP), een metriek die beter aansluit bij de werkelijke online prestaties en dient als een praktisch en effectief alternatief voor evaluatie in de echte wereld. Experimenten tonen aan dat onze Semi-online RL state-of-the-art prestaties behaalt onder 7B-modellen op vier dynamische benchmarks, met aanzienlijke verbeteringen ten opzichte van het basismodel (bijv. +12,0% op AndroidWorld, +23,8% op AITW), wat significante vooruitgang demonstreert in het overbruggen van de kloof tussen offline trainingsefficiëntie en online meerzijdig redeneren. De code is beschikbaar op https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
English
Graphical User Interface (GUI) agents have demonstrated remarkable progress
in automating complex user interface interactions through reinforcement
learning. However, current approaches face a fundamental dilemma: offline RL
enables stable training on pre-collected trajectories, but struggles with
multi-step task execution for lack of trajectory-level reward signals; online
RL captures these signals through environment interaction, but suffers from
sparse rewards and prohibitive deployment costs. To address it, we present
Semi-online Reinforcement Learning, a novel paradigm that simulates online RL
on offline trajectories. During each rollout process, we preserve the original
model output within the multi-turn dialogue, where a Patch Module adaptively
recovers the divergence between rollout and expert trajectories. To capture
long-term training signals, Semi-online RL introduces discounted future returns
into the reward computation and optimizes the policy with weighted step-level
and episode-level advantages. We further introduce Semi-Online Performance
(SOP), a metric that aligns better with true online performance, serving as a
practical and effective proxy for real-world evaluation. Experiments show that
ours Semi-online RL achieves SOTA performance among 7B models across four
dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on
AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging
the gap between offline training efficiency and online multi-turn reasoning.
The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.