UI-S1: 반온라인 강화 학습을 통한 GUI 자동화 기술 발전
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
September 15, 2025
저자: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang
cs.AI
초록
그래픽 사용자 인터페이스(GUI) 에이전트는 강화 학습을 통해 복잡한 사용자 인터페이스 상호작용을 자동화하는 데 있어서 놀라운 진전을 보여왔습니다. 그러나 현재의 접근 방식은 근본적인 딜레마에 직면해 있습니다: 오프라인 강화 학습(RL)은 사전 수집된 궤적에 대해 안정적인 학습을 가능하게 하지만, 궤적 수준의 보상 신호가 부족하여 다단계 작업 실행에 어려움을 겪습니다. 반면, 온라인 강화 학습은 환경 상호작용을 통해 이러한 신호를 포착하지만, 희소한 보상과 과도한 배포 비용으로 인해 어려움을 겪습니다. 이를 해결하기 위해, 우리는 오프라인 궤적에서 온라인 강화 학습을 시뮬레이션하는 새로운 패러다임인 세미온라인 강화 학습(Semi-online Reinforcement Learning)을 제안합니다. 각 롤아웃 과정에서, 우리는 다중 턴 대화 내에서 원본 모델 출력을 보존하며, 패치 모듈(Patch Module)이 롤아웃과 전문가 궤적 간의 차이를 적응적으로 복구합니다. 장기적인 학습 신호를 포착하기 위해, 세미온라인 강화 학습은 할인된 미래 수익을 보상 계산에 도입하고, 가중치가 적용된 단계 수준과 에피소드 수준의 이점을 통해 정책을 최적화합니다. 또한, 우리는 실제 온라인 성능과 더 잘 일치하는 실용적이고 효과적인 평가 지표인 세미온라인 성능(Semi-Online Performance, SOP)을 제안합니다. 실험 결과, 우리의 세미온라인 강화 학습은 4개의 동적 벤치마크에서 7B 모델들 중 최고 성능을 달성하며, 기본 모델 대비 상당한 성능 향상을 보였습니다(예: AndroidWorld에서 +12.0%, AITW에서 +23.8%). 이를 통해 오프라인 학습 효율성과 온라인 다중 턴 추론 간의 격차를 줄이는 데 있어서 상당한 진전을 이루었음을 입증했습니다. 코드는 https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1에서 확인할 수 있습니다.
English
Graphical User Interface (GUI) agents have demonstrated remarkable progress
in automating complex user interface interactions through reinforcement
learning. However, current approaches face a fundamental dilemma: offline RL
enables stable training on pre-collected trajectories, but struggles with
multi-step task execution for lack of trajectory-level reward signals; online
RL captures these signals through environment interaction, but suffers from
sparse rewards and prohibitive deployment costs. To address it, we present
Semi-online Reinforcement Learning, a novel paradigm that simulates online RL
on offline trajectories. During each rollout process, we preserve the original
model output within the multi-turn dialogue, where a Patch Module adaptively
recovers the divergence between rollout and expert trajectories. To capture
long-term training signals, Semi-online RL introduces discounted future returns
into the reward computation and optimizes the policy with weighted step-level
and episode-level advantages. We further introduce Semi-Online Performance
(SOP), a metric that aligns better with true online performance, serving as a
practical and effective proxy for real-world evaluation. Experiments show that
ours Semi-online RL achieves SOTA performance among 7B models across four
dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on
AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging
the gap between offline training efficiency and online multi-turn reasoning.
The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.