UI-S1: Развитие автоматизации графического интерфейса с помощью полуонлайнового обучения с подкреплением
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
September 15, 2025
Авторы: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang
cs.AI
Аннотация
Агенты с графическим пользовательским интерфейсом (GUI) продемонстрировали значительный прогресс в автоматизации сложных взаимодействий с интерфейсом с использованием обучения с подкреплением. Однако современные подходы сталкиваются с фундаментальной дилеммой: оффлайн-обучение с подкреплением (RL) позволяет стабильно обучаться на предварительно собранных траекториях, но испытывает трудности с выполнением многошаговых задач из-за отсутствия сигналов вознаграждения на уровне траекторий; онлайн-RL захватывает эти сигналы через взаимодействие со средой, но страдает от редких вознаграждений и непомерных затрат на развертывание. Для решения этой проблемы мы представляем полуонлайновое обучение с подкреплением — новый подход, который симулирует онлайн-RL на оффлайновых траекториях. В процессе каждого развертывания мы сохраняем исходный вывод модели в рамках многошагового диалога, где адаптивный модуль Patch восстанавливает расхождения между развертываемыми и экспертно заданными траекториями. Для захвата долгосрочных сигналов обучения полуонлайновое RL вводит дисконтированные будущие вознаграждения в расчет наград и оптимизирует политику с использованием взвешенных преимуществ на уровне шагов и эпизодов. Мы также вводим метрику Semi-Online Performance (SOP), которая лучше соответствует реальной онлайн-производительности, служа практичным и эффективным прокси для оценки в реальных условиях. Эксперименты показывают, что наш полуонлайновый RL достигает наилучших результатов среди моделей с 7 миллиардами параметров на четырех динамических бенчмарках, значительно превосходя базовую модель (например, +12,0% на AndroidWorld, +23,8% на AITW), демонстрируя значительный прогресс в сокращении разрыва между эффективностью оффлайнового обучения и многошаговым рассуждением в онлайн-режиме. Код доступен по адресу https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
English
Graphical User Interface (GUI) agents have demonstrated remarkable progress
in automating complex user interface interactions through reinforcement
learning. However, current approaches face a fundamental dilemma: offline RL
enables stable training on pre-collected trajectories, but struggles with
multi-step task execution for lack of trajectory-level reward signals; online
RL captures these signals through environment interaction, but suffers from
sparse rewards and prohibitive deployment costs. To address it, we present
Semi-online Reinforcement Learning, a novel paradigm that simulates online RL
on offline trajectories. During each rollout process, we preserve the original
model output within the multi-turn dialogue, where a Patch Module adaptively
recovers the divergence between rollout and expert trajectories. To capture
long-term training signals, Semi-online RL introduces discounted future returns
into the reward computation and optimizes the policy with weighted step-level
and episode-level advantages. We further introduce Semi-Online Performance
(SOP), a metric that aligns better with true online performance, serving as a
practical and effective proxy for real-world evaluation. Experiments show that
ours Semi-online RL achieves SOTA performance among 7B models across four
dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on
AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging
the gap between offline training efficiency and online multi-turn reasoning.
The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.