RL Multi-turn Eficiente para Agentes de Interface Gráfica via Treinamento Desacoplado e Curadoria de Dados Adaptativa
Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation
September 28, 2025
Autores: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI
Resumo
Agentes de interface gráfica (GUI) baseados em modelos visão-linguagem (VLM) mostram potencial para automatizar tarefas complexas em desktops e dispositivos móveis, mas enfrentam desafios significativos na aplicação de aprendizado por reforço (RL): (1) interações multiturno lentas com ambientes de GUI para execução de políticas, e (2) interações insuficientes de alta qualidade entre agente e ambiente para aprendizado de políticas. Para abordar esses desafios, propomos o DART, um framework de Treinamento de RL Agêntico Desacoplado para agentes de GUI, que coordena módulos heterogêneos de maneira altamente desacoplada. O DART separa o sistema de treinamento em quatro módulos assíncronos: cluster de ambiente, serviço de execução, gerenciador de dados e treinador. Esse design permite comunicação não bloqueante, treinamento assíncrono, amostragem de trajetórias por execução e sincronização de modelos por worker, melhorando significativamente a eficiência do sistema: 1,6* de utilização de GPU para execução, 1,9* de taxa de transferência de treinamento e 5,5* de utilização do ambiente. Para facilitar o aprendizado eficaz a partir de amostras abundantes, introduzimos um esquema de curadoria de dados adaptativo: (1) pré-coleta de trajetórias bem-sucedidas para tarefas desafiadoras, complementando o sucesso esparso na amostragem online; (2) ajuste dinâmico do número de execuções e comprimentos de trajetórias com base na dificuldade da tarefa; (3) treinamento seletivo em etapas de alta entropia para priorizar decisões críticas; (4) estabilização do aprendizado via amostragem de importância truncada para descompasso de políticas entre execução e atualização. No benchmark OSWorld, o DART-GUI-7B alcança uma taxa de sucesso de tarefas de 42,13%, um ganho absoluto de 14,61% sobre o modelo base e 7,34% superior ao SOTA de código aberto. Disponibilizaremos integralmente nosso framework de treinamento, dados e checkpoints de modelo em computer-use-agents.github.io/dart-gui, o que acreditamos ser uma contribuição oportuna para a comunidade de código aberto de treinamento de RL agêntico.
English
Vision-language model (VLM) based GUI agents show promise for automating
complex desktop and mobile tasks, but face significant challenges in applying
reinforcement learning (RL): (1) slow multi-turn interactions with GUI
environments for policy rollout, and (2) insufficient high-quality
agent-environment interactions for policy learning. To address these
challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI
agents, which coordinates heterogeneous modules in a highly decoupled manner.
DART separates the training system into four asynchronous modules: environment
cluster, rollout service, data manager, and trainer. This design enables
non-blocking communication, asynchronous training, rollout-wise trajectory
sampling, and per-worker model synchronization, significantly improving the
system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput,
and 5.5* environment utilization. To facilitate effective learning from
abundant samples, we introduce an adaptive data curation scheme: (1)
pre-collecting successful trajectories for challenging tasks to supplement
sparse success in online sampling; (2) dynamically adjusting rollout numbers
and trajectory lengths based on task difficulty; (3) training selectively on
high-entropy steps to prioritize critical decisions; (4) stabilizing learning
via truncated importance sampling for policy mismatch between policy rollout
and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task
success rate, a 14.61% absolute gain over the base model, and 7.34% higher than
open-source SOTA. We will fully open-source our training framework, data, and
model checkpoints via computer-use-agents.github.io/dart-gui, which we believe
is a timely contribution to the open-source community of agentic RL training.