ChatPaper.aiChatPaper

Efficiënte Multi-turn RL voor GUI-agents via Ontkoppelde Training en Adaptieve Datacuratie

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

September 28, 2025
Auteurs: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI

Samenvatting

Vision-language model (VLM)-gebaseerde GUI-agenten tonen potentie voor het automatiseren van complexe desktop- en mobiele taken, maar worden geconfronteerd met aanzienlijke uitdagingen bij het toepassen van reinforcement learning (RL): (1) trage multi-turn interacties met GUI-omgevingen voor policy rollout, en (2) onvoldoende hoogwaardige agent-omgeving interacties voor policy learning. Om deze uitdagingen aan te pakken, stellen we DART voor, een Decoupled Agentic RL Training-framework voor GUI-agenten, dat heterogene modules op een sterk ontkoppelde manier coördineert. DART scheidt het trainingssysteem in vier asynchrone modules: omgevingscluster, rollout-service, data manager en trainer. Dit ontwerp maakt niet-blokkerende communicatie, asynchrone training, rollout-wise trajectoriesteekproeven en per-worker modelsynchronisatie mogelijk, wat de systeemefficiëntie aanzienlijk verbetert: 1,6* GPU-gebruik voor rollout, 1,9* trainingsdoorvoer en 5,5* omgevingsgebruik. Om effectief te leren uit overvloedige steekproeven, introduceren we een adaptief data-curatieschema: (1) het vooraf verzamelen van succesvolle trajecten voor uitdagende taken om het schaarse succes in online steekproeven aan te vullen; (2) dynamisch aanpassen van het aantal rollouts en de trajectlengtes op basis van de taakmoeilijkheid; (3) selectief trainen op stappen met hoge entropie om kritieke beslissingen te prioriteren; (4) stabiliseren van het leren via afgekapte importance sampling voor policy mismatch tussen policy rollout en -updating. Op de OSWorld-benchmark behaalt DART-GUI-7B een taaksuccespercentage van 42,13%, een absolute verbetering van 14,61% ten opzichte van het basismodel, en 7,34% hoger dan open-source SOTA. We zullen ons trainingsframework, de data en modelcheckpoints volledig open-source maken via computer-use-agents.github.io/dart-gui, wat naar onze mening een tijdige bijdrage is aan de open-source gemeenschap van agentic RL-training.
English
Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.
PDF122September 30, 2025