RL Multi-tours Efficace pour Agents d'Interface Graphique via Entraînement Découplé et Curation Adaptative des Données
Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation
September 28, 2025
papers.authors: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI
papers.abstract
Les agents d'interface graphique (GUI) basés sur des modèles vision-langage (VLM) montrent un potentiel prometteur pour automatiser des tâches complexes sur ordinateur et mobile, mais ils rencontrent des défis significatifs dans l'application de l'apprentissage par renforcement (RL) : (1) des interactions multi-tours lentes avec les environnements GUI pour le déploiement des politiques, et (2) des interactions de qualité insuffisante entre l'agent et l'environnement pour l'apprentissage des politiques. Pour relever ces défis, nous proposons DART, un cadre de formation d'apprentissage par renforcement découplé pour les agents GUI, qui coordonne des modules hétérogènes de manière hautement découplée. DART sépare le système de formation en quatre modules asynchrones : cluster d'environnement, service de déploiement, gestionnaire de données et formateur. Cette conception permet une communication non bloquante, une formation asynchrone, un échantillonnage de trajectoires par déploiement et une synchronisation des modèles par travailleur, améliorant significativement l'efficacité du système : 1,6* d'utilisation du GPU pour le déploiement, 1,9* de débit de formation et 5,5* d'utilisation de l'environnement. Pour faciliter un apprentissage efficace à partir d'échantillons abondants, nous introduisons un schéma de curation de données adaptatif : (1) pré-collecter des trajectoires réussies pour des tâches difficiles afin de compléter les succès rares dans l'échantillonnage en ligne ; (2) ajuster dynamiquement le nombre de déploiements et la longueur des trajectoires en fonction de la difficulté de la tâche ; (3) former sélectivement sur les étapes à haute entropie pour prioriser les décisions critiques ; (4) stabiliser l'apprentissage via un échantillonnage d'importance tronqué pour les incompatibilités de politique entre le déploiement et la mise à jour des politiques. Sur le benchmark OSWorld, DART-GUI-7B atteint un taux de réussite des tâches de 42,13 %, soit un gain absolu de 14,61 % par rapport au modèle de base, et 7,34 % de plus que l'état de l'art open-source. Nous allons ouvrir entièrement notre cadre de formation, les données et les points de contrôle du modèle via computer-use-agents.github.io/dart-gui, ce que nous considérons comme une contribution opportune à la communauté open-source de la formation d'apprentissage par renforcement agentique.
English
Vision-language model (VLM) based GUI agents show promise for automating
complex desktop and mobile tasks, but face significant challenges in applying
reinforcement learning (RL): (1) slow multi-turn interactions with GUI
environments for policy rollout, and (2) insufficient high-quality
agent-environment interactions for policy learning. To address these
challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI
agents, which coordinates heterogeneous modules in a highly decoupled manner.
DART separates the training system into four asynchronous modules: environment
cluster, rollout service, data manager, and trainer. This design enables
non-blocking communication, asynchronous training, rollout-wise trajectory
sampling, and per-worker model synchronization, significantly improving the
system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput,
and 5.5* environment utilization. To facilitate effective learning from
abundant samples, we introduce an adaptive data curation scheme: (1)
pre-collecting successful trajectories for challenging tasks to supplement
sparse success in online sampling; (2) dynamically adjusting rollout numbers
and trajectory lengths based on task difficulty; (3) training selectively on
high-entropy steps to prioritize critical decisions; (4) stabilizing learning
via truncated importance sampling for policy mismatch between policy rollout
and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task
success rate, a 14.61% absolute gain over the base model, and 7.34% higher than
open-source SOTA. We will fully open-source our training framework, data, and
model checkpoints via computer-use-agents.github.io/dart-gui, which we believe
is a timely contribution to the open-source community of agentic RL training.