RL Multi-turn Eficiente para Agentes de Interface Gráfica via Treinamento Desacoplado e Curadoria de Dados Adaptativa

Resumo

Agentes de interface gráfica (GUI) baseados em modelos visão-linguagem (VLM) mostram potencial para automatizar tarefas complexas em desktops e dispositivos móveis, mas enfrentam desafios significativos na aplicação de aprendizado por reforço (RL): (1) interações multiturno lentas com ambientes de GUI para execução de políticas, e (2) interações insuficientes de alta qualidade entre agente e ambiente para aprendizado de políticas. Para abordar esses desafios, propomos o DART, um framework de Treinamento de RL Agêntico Desacoplado para agentes de GUI, que coordena módulos heterogêneos de maneira altamente desacoplada. O DART separa o sistema de treinamento em quatro módulos assíncronos: cluster de ambiente, serviço de execução, gerenciador de dados e treinador. Esse design permite comunicação não bloqueante, treinamento assíncrono, amostragem de trajetórias por execução e sincronização de modelos por worker, melhorando significativamente a eficiência do sistema: 1,6* de utilização de GPU para execução, 1,9* de taxa de transferência de treinamento e 5,5* de utilização do ambiente. Para facilitar o aprendizado eficaz a partir de amostras abundantes, introduzimos um esquema de curadoria de dados adaptativo: (1) pré-coleta de trajetórias bem-sucedidas para tarefas desafiadoras, complementando o sucesso esparso na amostragem online; (2) ajuste dinâmico do número de execuções e comprimentos de trajetórias com base na dificuldade da tarefa; (3) treinamento seletivo em etapas de alta entropia para priorizar decisões críticas; (4) estabilização do aprendizado via amostragem de importância truncada para descompasso de políticas entre execução e atualização. No benchmark OSWorld, o DART-GUI-7B alcança uma taxa de sucesso de tarefas de 42,13%, um ganho absoluto de 14,61% sobre o modelo base e 7,34% superior ao SOTA de código aberto. Disponibilizaremos integralmente nosso framework de treinamento, dados e checkpoints de modelo em computer-use-agents.github.io/dart-gui, o que acreditamos ser uma contribuição oportuna para a comunidade de código aberto de treinamento de RL agêntico.

English

Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.

RL Multi-turn Eficiente para Agentes de Interface Gráfica via Treinamento Desacoplado e Curadoria de Dados Adaptativa

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

Resumo

Support