UI-S1: Avanzamento dell'automazione delle interfacce grafiche tramite apprendimento per rinforzo semi-online
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
September 15, 2025
Autori: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang
cs.AI
Abstract
Gli agenti di interfaccia utente grafica (GUI) hanno dimostrato progressi significativi nell'automatizzazione di interazioni complesse con l'interfaccia utente attraverso l'apprendimento per rinforzo. Tuttavia, gli approcci attuali si trovano di fronte a un dilemma fondamentale: l'RL offline consente un addestramento stabile su traiettorie pre-raccolte, ma fatica nell'esecuzione di compiti multi-step a causa della mancanza di segnali di ricompensa a livello di traiettoria; l'RL online cattura questi segnali attraverso l'interazione con l'ambiente, ma soffre di ricompense sparse e costi di implementazione proibitivi. Per affrontare questo problema, presentiamo l'Apprendimento per Rinforzo Semi-online, un paradigma innovativo che simula l'RL online su traiettorie offline. Durante ogni processo di rollout, preserviamo l'output originale del modello all'interno del dialogo multi-turn, dove un Modulo Patch adattivamente recupera la divergenza tra il rollout e le traiettorie esperte. Per catturare segnali di addestramento a lungo termine, l'RL Semi-online introduce rendimenti futuri scontati nel calcolo della ricompensa e ottimizza la politica con vantaggi ponderati a livello di step e di episodio. Introduciamo inoltre la Metrica di Prestazione Semi-Online (SOP), che si allinea meglio con la vera prestazione online, servendo come proxy pratico ed efficace per la valutazione nel mondo reale. Gli esperimenti mostrano che il nostro RL Semi-online raggiunge prestazioni SOTA tra i modelli da 7B su quattro benchmark dinamici, con guadagni significativi rispetto al modello base (ad esempio, +12,0% su AndroidWorld, +23,8% su AITW), dimostrando progressi significativi nel colmare il divario tra l'efficienza dell'addestramento offline e il ragionamento multi-turn online. Il codice è disponibile all'indirizzo https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
English
Graphical User Interface (GUI) agents have demonstrated remarkable progress
in automating complex user interface interactions through reinforcement
learning. However, current approaches face a fundamental dilemma: offline RL
enables stable training on pre-collected trajectories, but struggles with
multi-step task execution for lack of trajectory-level reward signals; online
RL captures these signals through environment interaction, but suffers from
sparse rewards and prohibitive deployment costs. To address it, we present
Semi-online Reinforcement Learning, a novel paradigm that simulates online RL
on offline trajectories. During each rollout process, we preserve the original
model output within the multi-turn dialogue, where a Patch Module adaptively
recovers the divergence between rollout and expert trajectories. To capture
long-term training signals, Semi-online RL introduces discounted future returns
into the reward computation and optimizes the policy with weighted step-level
and episode-level advantages. We further introduce Semi-Online Performance
(SOP), a metric that aligns better with true online performance, serving as a
practical and effective proxy for real-world evaluation. Experiments show that
ours Semi-online RL achieves SOTA performance among 7B models across four
dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on
AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging
the gap between offline training efficiency and online multi-turn reasoning.
The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.