ChatPaper.aiChatPaper

Эффективное многошаговое обучение с подкреплением для агентов графического интерфейса через раздельное обучение и адаптивную обработку данных

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

September 28, 2025
Авторы: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI

Аннотация

Агенты с графическим интерфейсом пользователя (GUI), основанные на моделях "визуальный язык" (VLM), демонстрируют потенциал для автоматизации сложных задач на настольных и мобильных устройствах, но сталкиваются с существенными трудностями при применении обучения с подкреплением (RL): (1) медленные многошаговые взаимодействия с GUI-средами для развертывания политик и (2) недостаточное количество высококачественных взаимодействий между агентом и средой для обучения политик. Для решения этих проблем мы предлагаем DART — фреймворк Decoupled Agentic RL Training для GUI-агентов, который координирует гетерогенные модули в высоко декомпозированной манере. DART разделяет систему обучения на четыре асинхронных модуля: кластер среды, сервис развертывания, менеджер данных и тренер. Такая конструкция обеспечивает неблокирующую коммуникацию, асинхронное обучение, выборку траекторий на уровне развертывания и синхронизацию моделей на уровне каждого рабочего процесса, значительно повышая эффективность системы: 1.6* использование GPU для развертывания, 1.9* пропускная способность обучения и 5.5* использование среды. Для эффективного обучения на основе обильных выборок мы вводим адаптивную схему курирования данных: (1) предварительный сбор успешных траекторий для сложных задач для компенсации редких успехов в онлайн-выборке; (2) динамическая настройка количества развертываний и длины траекторий в зависимости от сложности задачи; (3) выборочное обучение на шагах с высокой энтропией для приоритизации критических решений; (4) стабилизация обучения с помощью усеченного важностного сэмплирования для устранения несоответствия политик между развертыванием и обновлением. На бенчмарке OSWorld DART-GUI-7B достигает уровня успешного выполнения задач в 42.13%, что на 14.61% выше базовой модели и на 7.34% выше, чем у открытого SOTA. Мы полностью откроем исходный код нашего фреймворка, данных и контрольных точек модели через computer-use-agents.github.io/dart-gui, что, как мы считаем, является своевременным вкладом в сообщество открытого исходного кода для обучения с подкреплением агентов.
English
Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.
PDF72September 30, 2025