ChatPaper.aiChatPaper

RL Multi-turn Efficiente per Agenti GUI tramite Addestramento Disaccoppiato e Cura Adattativa dei Dati

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

September 28, 2025
Autori: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI

Abstract

I modelli visione-linguaggio (VLM) basati su agenti GUI mostrano un potenziale promettente per l'automazione di compiti complessi su desktop e dispositivi mobili, ma affrontano sfide significative nell'applicazione dell'apprendimento per rinforzo (RL): (1) interazioni multi-turn lente con ambienti GUI per il rollout delle politiche, e (2) interazioni di qualità insufficienti tra agente e ambiente per l'apprendimento delle politiche. Per affrontare queste sfide, proponiamo DART, un framework di Addestramento RL Agente Decoupled per agenti GUI, che coordina moduli eterogenei in modo altamente disaccoppiato. DART separa il sistema di addestramento in quattro moduli asincroni: cluster di ambiente, servizio di rollout, gestore dei dati e trainer. Questo design consente comunicazioni non bloccanti, addestramento asincrono, campionamento di traiettorie per rollout e sincronizzazione del modello per worker, migliorando significativamente l'efficienza del sistema: 1.6* utilizzo della GPU per il rollout, 1.9* throughput di addestramento e 5.5* utilizzo dell'ambiente. Per facilitare un apprendimento efficace da campioni abbondanti, introduciamo uno schema di curatela dei dati adattivo: (1) pre-raccolta di traiettorie di successo per compiti impegnativi per integrare il successo scarso nel campionamento online; (2) regolazione dinamica del numero di rollout e della lunghezza delle traiettorie in base alla difficoltà del compito; (3) addestramento selettivo su passi ad alta entropia per dare priorità alle decisioni critiche; (4) stabilizzazione dell'apprendimento tramite campionamento di importanza troncato per il disallineamento delle politiche tra rollout e aggiornamento delle politiche. Sul benchmark OSWorld, DART-GUI-7B raggiunge un tasso di successo del 42.13%, un guadagno assoluto del 14.61% rispetto al modello base e un 7.34% in più rispetto allo stato dell'arte open-source. Rilascieremo completamente open-source il nostro framework di addestramento, i dati e i checkpoint del modello tramite computer-use-agents.github.io/dart-gui, un contributo tempestivo alla comunità open-source dell'addestramento RL agente.
English
Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.
PDF122September 30, 2025