UI-S1: Avançando a Automação de Interfaces Gráficas via Aprendizado por Reforço Semi-online
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
September 15, 2025
Autores: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang
cs.AI
Resumo
Agentes de Interface Gráfica do Usuário (GUI) têm demonstrado progressos notáveis na automação de interações complexas com interfaces por meio de aprendizagem por reforço. No entanto, as abordagens atuais enfrentam um dilema fundamental: o RL offline permite treinamento estável em trajetórias pré-coletadas, mas luta com a execução de tarefas de múltiplos passos devido à falta de sinais de recompensa em nível de trajetória; o RL online captura esses sinais por meio da interação com o ambiente, mas sofre com recompensas esparsas e custos de implantação proibitivos. Para resolver isso, apresentamos a Aprendizagem por Reforço Semi-online, um novo paradigma que simula o RL online em trajetórias offline. Durante cada processo de rollout, preservamos a saída original do modelo dentro do diálogo de múltiplos turnos, onde um Módulo de Correção adaptativamente recupera a divergência entre o rollout e as trajetórias especializadas. Para capturar sinais de treinamento de longo prazo, o RL Semi-online introduz retornos futuros descontados no cálculo da recompensa e otimiza a política com vantagens ponderadas em nível de passo e de episódio. Além disso, introduzimos o Desempenho Semi-online (SOP), uma métrica que se alinha melhor com o desempenho online real, servindo como um proxy prático e eficaz para avaliação no mundo real. Experimentos mostram que nosso RL Semi-online alcança desempenho de estado da arte entre modelos de 7B em quatro benchmarks dinâmicos, com ganhos significativos sobre o modelo base (por exemplo, +12,0% no AndroidWorld, +23,8% no AITW), demonstrando progresso significativo em reduzir a lacuna entre a eficiência do treinamento offline e o raciocínio de múltiplos turnos online. O código está disponível em https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
English
Graphical User Interface (GUI) agents have demonstrated remarkable progress
in automating complex user interface interactions through reinforcement
learning. However, current approaches face a fundamental dilemma: offline RL
enables stable training on pre-collected trajectories, but struggles with
multi-step task execution for lack of trajectory-level reward signals; online
RL captures these signals through environment interaction, but suffers from
sparse rewards and prohibitive deployment costs. To address it, we present
Semi-online Reinforcement Learning, a novel paradigm that simulates online RL
on offline trajectories. During each rollout process, we preserve the original
model output within the multi-turn dialogue, where a Patch Module adaptively
recovers the divergence between rollout and expert trajectories. To capture
long-term training signals, Semi-online RL introduces discounted future returns
into the reward computation and optimizes the policy with weighted step-level
and episode-level advantages. We further introduce Semi-Online Performance
(SOP), a metric that aligns better with true online performance, serving as a
practical and effective proxy for real-world evaluation. Experiments show that
ours Semi-online RL achieves SOTA performance among 7B models across four
dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on
AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging
the gap between offline training efficiency and online multi-turn reasoning.
The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.