Effiziente Mehrschritt-RL für GUI-Agenten durch entkoppeltes Training und adaptive Datenkuratierung

papers.abstract

Vision-Language-Model (VLM)-basierte GUI-Agenten zeigen vielversprechende Ansätze zur Automatisierung komplexer Desktop- und Mobilgeräteaufgaben, stehen jedoch vor erheblichen Herausforderungen bei der Anwendung von Reinforcement Learning (RL): (1) langsame, mehrstufige Interaktionen mit GUI-Umgebungen für das Policy-Rollout und (2) unzureichende hochwertige Interaktionen zwischen Agent und Umgebung für das Policy-Lernen. Um diese Herausforderungen zu bewältigen, schlagen wir DART vor, ein entkoppeltes agentenbasiertes RL-Trainingsframework für GUI-Agenten, das heterogene Module in stark entkoppelter Weise koordiniert. DART teilt das Trainingssystem in vier asynchrone Module auf: Umgebungscluster, Rollout-Service, Datenmanager und Trainer. Dieser Entwurf ermöglicht nicht-blockierende Kommunikation, asynchrones Training, rollout-basierte Trajektorienabtastung und pro-Worker-Modellsynchronisation, was die Systemeffizienz erheblich steigert: 1,6-fache GPU-Auslastung für das Rollout, 1,9-facher Trainingsdurchsatz und 5,5-fache Umgebungsauslastung. Um effektives Lernen aus einer Fülle von Proben zu ermöglichen, führen wir ein adaptives Datenkuratierungsschema ein: (1) Vorab-Sammlung erfolgreicher Trajektorien für anspruchsvolle Aufgaben, um die spärlichen Erfolge bei der Online-Abtastung zu ergänzen; (2) dynamische Anpassung der Rollout-Zahlen und Trajektorienlängen basierend auf der Aufgabenkomplexität; (3) selektives Training auf Schritten mit hoher Entropie, um kritische Entscheidungen zu priorisieren; (4) Stabilisierung des Lernens durch gekürztes Importance Sampling für Policy-Mismatch zwischen Policy-Rollout und -Aktualisierung. Auf dem OSWorld-Benchmark erreicht DART-GUI-7B eine Aufgaben-Erfolgsrate von 42,13 %, einen absoluten Zuwachs von 14,61 % gegenüber dem Basismodell und liegt 7,34 % über dem Open-Source-SOTA. Wir werden unser Trainingsframework, die Daten und Modell-Checkpoints vollständig über computer-use-agents.github.io/dart-gui open-source bereitstellen, was wir als zeitgemäßen Beitrag zur Open-Source-Community des agentenbasierten RL-Trainings betrachten.

English

Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.

Effiziente Mehrschritt-RL für GUI-Agenten durch entkoppeltes Training und adaptive Datenkuratierung

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

papers.abstract

Support