RL Multi-turn Efficiente per Agenti GUI tramite Addestramento Disaccoppiato e Cura Adattativa dei Dati
Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation
September 28, 2025
Autori: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI
Abstract
I modelli visione-linguaggio (VLM) basati su agenti GUI mostrano un potenziale promettente per l'automazione di compiti complessi su desktop e dispositivi mobili, ma affrontano sfide significative nell'applicazione dell'apprendimento per rinforzo (RL): (1) interazioni multi-turn lente con ambienti GUI per il rollout delle politiche, e (2) interazioni di qualità insufficienti tra agente e ambiente per l'apprendimento delle politiche. Per affrontare queste sfide, proponiamo DART, un framework di Addestramento RL Agente Decoupled per agenti GUI, che coordina moduli eterogenei in modo altamente disaccoppiato. DART separa il sistema di addestramento in quattro moduli asincroni: cluster di ambiente, servizio di rollout, gestore dei dati e trainer. Questo design consente comunicazioni non bloccanti, addestramento asincrono, campionamento di traiettorie per rollout e sincronizzazione del modello per worker, migliorando significativamente l'efficienza del sistema: 1.6* utilizzo della GPU per il rollout, 1.9* throughput di addestramento e 5.5* utilizzo dell'ambiente. Per facilitare un apprendimento efficace da campioni abbondanti, introduciamo uno schema di curatela dei dati adattivo: (1) pre-raccolta di traiettorie di successo per compiti impegnativi per integrare il successo scarso nel campionamento online; (2) regolazione dinamica del numero di rollout e della lunghezza delle traiettorie in base alla difficoltà del compito; (3) addestramento selettivo su passi ad alta entropia per dare priorità alle decisioni critiche; (4) stabilizzazione dell'apprendimento tramite campionamento di importanza troncato per il disallineamento delle politiche tra rollout e aggiornamento delle politiche. Sul benchmark OSWorld, DART-GUI-7B raggiunge un tasso di successo del 42.13%, un guadagno assoluto del 14.61% rispetto al modello base e un 7.34% in più rispetto allo stato dell'arte open-source. Rilascieremo completamente open-source il nostro framework di addestramento, i dati e i checkpoint del modello tramite computer-use-agents.github.io/dart-gui, un contributo tempestivo alla comunità open-source dell'addestramento RL agente.
English
Vision-language model (VLM) based GUI agents show promise for automating
complex desktop and mobile tasks, but face significant challenges in applying
reinforcement learning (RL): (1) slow multi-turn interactions with GUI
environments for policy rollout, and (2) insufficient high-quality
agent-environment interactions for policy learning. To address these
challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI
agents, which coordinates heterogeneous modules in a highly decoupled manner.
DART separates the training system into four asynchronous modules: environment
cluster, rollout service, data manager, and trainer. This design enables
non-blocking communication, asynchronous training, rollout-wise trajectory
sampling, and per-worker model synchronization, significantly improving the
system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput,
and 5.5* environment utilization. To facilitate effective learning from
abundant samples, we introduce an adaptive data curation scheme: (1)
pre-collecting successful trajectories for challenging tasks to supplement
sparse success in online sampling; (2) dynamically adjusting rollout numbers
and trajectory lengths based on task difficulty; (3) training selectively on
high-entropy steps to prioritize critical decisions; (4) stabilizing learning
via truncated importance sampling for policy mismatch between policy rollout
and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task
success rate, a 14.61% absolute gain over the base model, and 7.34% higher than
open-source SOTA. We will fully open-source our training framework, data, and
model checkpoints via computer-use-agents.github.io/dart-gui, which we believe
is a timely contribution to the open-source community of agentic RL training.