Эффективное многошаговое обучение с подкреплением для агентов графического интерфейса через раздельное обучение и адаптивную обработку данных

Аннотация

Агенты с графическим интерфейсом пользователя (GUI), основанные на моделях "визуальный язык" (VLM), демонстрируют потенциал для автоматизации сложных задач на настольных и мобильных устройствах, но сталкиваются с существенными трудностями при применении обучения с подкреплением (RL): (1) медленные многошаговые взаимодействия с GUI-средами для развертывания политик и (2) недостаточное количество высококачественных взаимодействий между агентом и средой для обучения политик. Для решения этих проблем мы предлагаем DART — фреймворк Decoupled Agentic RL Training для GUI-агентов, который координирует гетерогенные модули в высоко декомпозированной манере. DART разделяет систему обучения на четыре асинхронных модуля: кластер среды, сервис развертывания, менеджер данных и тренер. Такая конструкция обеспечивает неблокирующую коммуникацию, асинхронное обучение, выборку траекторий на уровне развертывания и синхронизацию моделей на уровне каждого рабочего процесса, значительно повышая эффективность системы: 1.6* использование GPU для развертывания, 1.9* пропускная способность обучения и 5.5* использование среды. Для эффективного обучения на основе обильных выборок мы вводим адаптивную схему курирования данных: (1) предварительный сбор успешных траекторий для сложных задач для компенсации редких успехов в онлайн-выборке; (2) динамическая настройка количества развертываний и длины траекторий в зависимости от сложности задачи; (3) выборочное обучение на шагах с высокой энтропией для приоритизации критических решений; (4) стабилизация обучения с помощью усеченного важностного сэмплирования для устранения несоответствия политик между развертыванием и обновлением. На бенчмарке OSWorld DART-GUI-7B достигает уровня успешного выполнения задач в 42.13%, что на 14.61% выше базовой модели и на 7.34% выше, чем у открытого SOTA. Мы полностью откроем исходный код нашего фреймворка, данных и контрольных точек модели через computer-use-agents.github.io/dart-gui, что, как мы считаем, является своевременным вкладом в сообщество открытого исходного кода для обучения с подкреплением агентов.

English

Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.

Эффективное многошаговое обучение с подкреплением для агентов графического интерфейса через раздельное обучение и адаптивную обработку данных

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

Аннотация

Support