Efficiënte Multi-turn RL voor GUI-agents via Ontkoppelde Training en Adaptieve Datacuratie
Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation
September 28, 2025
Auteurs: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI
Samenvatting
Vision-language model (VLM)-gebaseerde GUI-agenten tonen potentie voor het automatiseren van complexe desktop- en mobiele taken, maar worden geconfronteerd met aanzienlijke uitdagingen bij het toepassen van reinforcement learning (RL): (1) trage multi-turn interacties met GUI-omgevingen voor policy rollout, en (2) onvoldoende hoogwaardige agent-omgeving interacties voor policy learning. Om deze uitdagingen aan te pakken, stellen we DART voor, een Decoupled Agentic RL Training-framework voor GUI-agenten, dat heterogene modules op een sterk ontkoppelde manier coördineert. DART scheidt het trainingssysteem in vier asynchrone modules: omgevingscluster, rollout-service, data manager en trainer. Dit ontwerp maakt niet-blokkerende communicatie, asynchrone training, rollout-wise trajectoriesteekproeven en per-worker modelsynchronisatie mogelijk, wat de systeemefficiëntie aanzienlijk verbetert: 1,6* GPU-gebruik voor rollout, 1,9* trainingsdoorvoer en 5,5* omgevingsgebruik. Om effectief te leren uit overvloedige steekproeven, introduceren we een adaptief data-curatieschema: (1) het vooraf verzamelen van succesvolle trajecten voor uitdagende taken om het schaarse succes in online steekproeven aan te vullen; (2) dynamisch aanpassen van het aantal rollouts en de trajectlengtes op basis van de taakmoeilijkheid; (3) selectief trainen op stappen met hoge entropie om kritieke beslissingen te prioriteren; (4) stabiliseren van het leren via afgekapte importance sampling voor policy mismatch tussen policy rollout en -updating. Op de OSWorld-benchmark behaalt DART-GUI-7B een taaksuccespercentage van 42,13%, een absolute verbetering van 14,61% ten opzichte van het basismodel, en 7,34% hoger dan open-source SOTA. We zullen ons trainingsframework, de data en modelcheckpoints volledig open-source maken via computer-use-agents.github.io/dart-gui, wat naar onze mening een tijdige bijdrage is aan de open-source gemeenschap van agentic RL-training.
English
Vision-language model (VLM) based GUI agents show promise for automating
complex desktop and mobile tasks, but face significant challenges in applying
reinforcement learning (RL): (1) slow multi-turn interactions with GUI
environments for policy rollout, and (2) insufficient high-quality
agent-environment interactions for policy learning. To address these
challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI
agents, which coordinates heterogeneous modules in a highly decoupled manner.
DART separates the training system into four asynchronous modules: environment
cluster, rollout service, data manager, and trainer. This design enables
non-blocking communication, asynchronous training, rollout-wise trajectory
sampling, and per-worker model synchronization, significantly improving the
system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput,
and 5.5* environment utilization. To facilitate effective learning from
abundant samples, we introduce an adaptive data curation scheme: (1)
pre-collecting successful trajectories for challenging tasks to supplement
sparse success in online sampling; (2) dynamically adjusting rollout numbers
and trajectory lengths based on task difficulty; (3) training selectively on
high-entropy steps to prioritize critical decisions; (4) stabilizing learning
via truncated importance sampling for policy mismatch between policy rollout
and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task
success rate, a 14.61% absolute gain over the base model, and 7.34% higher than
open-source SOTA. We will fully open-source our training framework, data, and
model checkpoints via computer-use-agents.github.io/dart-gui, which we believe
is a timely contribution to the open-source community of agentic RL training.