ChatPaper.aiChatPaper

Effiziente Mehrschritt-RL für GUI-Agenten durch entkoppeltes Training und adaptive Datenkuratierung

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

September 28, 2025
papers.authors: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI

papers.abstract

Vision-Language-Model (VLM)-basierte GUI-Agenten zeigen vielversprechende Ansätze zur Automatisierung komplexer Desktop- und Mobilgeräteaufgaben, stehen jedoch vor erheblichen Herausforderungen bei der Anwendung von Reinforcement Learning (RL): (1) langsame, mehrstufige Interaktionen mit GUI-Umgebungen für das Policy-Rollout und (2) unzureichende hochwertige Interaktionen zwischen Agent und Umgebung für das Policy-Lernen. Um diese Herausforderungen zu bewältigen, schlagen wir DART vor, ein entkoppeltes agentenbasiertes RL-Trainingsframework für GUI-Agenten, das heterogene Module in stark entkoppelter Weise koordiniert. DART teilt das Trainingssystem in vier asynchrone Module auf: Umgebungscluster, Rollout-Service, Datenmanager und Trainer. Dieser Entwurf ermöglicht nicht-blockierende Kommunikation, asynchrones Training, rollout-basierte Trajektorienabtastung und pro-Worker-Modellsynchronisation, was die Systemeffizienz erheblich steigert: 1,6-fache GPU-Auslastung für das Rollout, 1,9-facher Trainingsdurchsatz und 5,5-fache Umgebungsauslastung. Um effektives Lernen aus einer Fülle von Proben zu ermöglichen, führen wir ein adaptives Datenkuratierungsschema ein: (1) Vorab-Sammlung erfolgreicher Trajektorien für anspruchsvolle Aufgaben, um die spärlichen Erfolge bei der Online-Abtastung zu ergänzen; (2) dynamische Anpassung der Rollout-Zahlen und Trajektorienlängen basierend auf der Aufgabenkomplexität; (3) selektives Training auf Schritten mit hoher Entropie, um kritische Entscheidungen zu priorisieren; (4) Stabilisierung des Lernens durch gekürztes Importance Sampling für Policy-Mismatch zwischen Policy-Rollout und -Aktualisierung. Auf dem OSWorld-Benchmark erreicht DART-GUI-7B eine Aufgaben-Erfolgsrate von 42,13 %, einen absoluten Zuwachs von 14,61 % gegenüber dem Basismodell und liegt 7,34 % über dem Open-Source-SOTA. Wir werden unser Trainingsframework, die Daten und Modell-Checkpoints vollständig über computer-use-agents.github.io/dart-gui open-source bereitstellen, was wir als zeitgemäßen Beitrag zur Open-Source-Community des agentenbasierten RL-Trainings betrachten.
English
Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.
PDF72September 30, 2025