ChatPaper.aiChatPaper

RL Multi-tours Efficace pour Agents d'Interface Graphique via Entraînement Découplé et Curation Adaptative des Données

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

September 28, 2025
papers.authors: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI

papers.abstract

Les agents d'interface graphique (GUI) basés sur des modèles vision-langage (VLM) montrent un potentiel prometteur pour automatiser des tâches complexes sur ordinateur et mobile, mais ils rencontrent des défis significatifs dans l'application de l'apprentissage par renforcement (RL) : (1) des interactions multi-tours lentes avec les environnements GUI pour le déploiement des politiques, et (2) des interactions de qualité insuffisante entre l'agent et l'environnement pour l'apprentissage des politiques. Pour relever ces défis, nous proposons DART, un cadre de formation d'apprentissage par renforcement découplé pour les agents GUI, qui coordonne des modules hétérogènes de manière hautement découplée. DART sépare le système de formation en quatre modules asynchrones : cluster d'environnement, service de déploiement, gestionnaire de données et formateur. Cette conception permet une communication non bloquante, une formation asynchrone, un échantillonnage de trajectoires par déploiement et une synchronisation des modèles par travailleur, améliorant significativement l'efficacité du système : 1,6* d'utilisation du GPU pour le déploiement, 1,9* de débit de formation et 5,5* d'utilisation de l'environnement. Pour faciliter un apprentissage efficace à partir d'échantillons abondants, nous introduisons un schéma de curation de données adaptatif : (1) pré-collecter des trajectoires réussies pour des tâches difficiles afin de compléter les succès rares dans l'échantillonnage en ligne ; (2) ajuster dynamiquement le nombre de déploiements et la longueur des trajectoires en fonction de la difficulté de la tâche ; (3) former sélectivement sur les étapes à haute entropie pour prioriser les décisions critiques ; (4) stabiliser l'apprentissage via un échantillonnage d'importance tronqué pour les incompatibilités de politique entre le déploiement et la mise à jour des politiques. Sur le benchmark OSWorld, DART-GUI-7B atteint un taux de réussite des tâches de 42,13 %, soit un gain absolu de 14,61 % par rapport au modèle de base, et 7,34 % de plus que l'état de l'art open-source. Nous allons ouvrir entièrement notre cadre de formation, les données et les points de contrôle du modèle via computer-use-agents.github.io/dart-gui, ce que nous considérons comme une contribution opportune à la communauté open-source de la formation d'apprentissage par renforcement agentique.
English
Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.
PDF72September 30, 2025