Efficiënte Multi-turn RL voor GUI-agents via Ontkoppelde Training en Adaptieve Datacuratie

Samenvatting

Vision-language model (VLM)-gebaseerde GUI-agenten tonen potentie voor het automatiseren van complexe desktop- en mobiele taken, maar worden geconfronteerd met aanzienlijke uitdagingen bij het toepassen van reinforcement learning (RL): (1) trage multi-turn interacties met GUI-omgevingen voor policy rollout, en (2) onvoldoende hoogwaardige agent-omgeving interacties voor policy learning. Om deze uitdagingen aan te pakken, stellen we DART voor, een Decoupled Agentic RL Training-framework voor GUI-agenten, dat heterogene modules op een sterk ontkoppelde manier coördineert. DART scheidt het trainingssysteem in vier asynchrone modules: omgevingscluster, rollout-service, data manager en trainer. Dit ontwerp maakt niet-blokkerende communicatie, asynchrone training, rollout-wise trajectoriesteekproeven en per-worker modelsynchronisatie mogelijk, wat de systeemefficiëntie aanzienlijk verbetert: 1,6* GPU-gebruik voor rollout, 1,9* trainingsdoorvoer en 5,5* omgevingsgebruik. Om effectief te leren uit overvloedige steekproeven, introduceren we een adaptief data-curatieschema: (1) het vooraf verzamelen van succesvolle trajecten voor uitdagende taken om het schaarse succes in online steekproeven aan te vullen; (2) dynamisch aanpassen van het aantal rollouts en de trajectlengtes op basis van de taakmoeilijkheid; (3) selectief trainen op stappen met hoge entropie om kritieke beslissingen te prioriteren; (4) stabiliseren van het leren via afgekapte importance sampling voor policy mismatch tussen policy rollout en -updating. Op de OSWorld-benchmark behaalt DART-GUI-7B een taaksuccespercentage van 42,13%, een absolute verbetering van 14,61% ten opzichte van het basismodel, en 7,34% hoger dan open-source SOTA. We zullen ons trainingsframework, de data en modelcheckpoints volledig open-source maken via computer-use-agents.github.io/dart-gui, wat naar onze mening een tijdige bijdrage is aan de open-source gemeenschap van agentic RL-training.

English

Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.

Efficiënte Multi-turn RL voor GUI-agents via Ontkoppelde Training en Adaptieve Datacuratie

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

Samenvatting

Support