ChatPaper.aiChatPaper

RL Multi-turn Eficiente para Agentes de Interface Gráfica via Treinamento Desacoplado e Curadoria de Dados Adaptativa

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

September 28, 2025
Autores: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI

Resumo

Agentes de interface gráfica (GUI) baseados em modelos visão-linguagem (VLM) mostram potencial para automatizar tarefas complexas em desktops e dispositivos móveis, mas enfrentam desafios significativos na aplicação de aprendizado por reforço (RL): (1) interações multiturno lentas com ambientes de GUI para execução de políticas, e (2) interações insuficientes de alta qualidade entre agente e ambiente para aprendizado de políticas. Para abordar esses desafios, propomos o DART, um framework de Treinamento de RL Agêntico Desacoplado para agentes de GUI, que coordena módulos heterogêneos de maneira altamente desacoplada. O DART separa o sistema de treinamento em quatro módulos assíncronos: cluster de ambiente, serviço de execução, gerenciador de dados e treinador. Esse design permite comunicação não bloqueante, treinamento assíncrono, amostragem de trajetórias por execução e sincronização de modelos por worker, melhorando significativamente a eficiência do sistema: 1,6* de utilização de GPU para execução, 1,9* de taxa de transferência de treinamento e 5,5* de utilização do ambiente. Para facilitar o aprendizado eficaz a partir de amostras abundantes, introduzimos um esquema de curadoria de dados adaptativo: (1) pré-coleta de trajetórias bem-sucedidas para tarefas desafiadoras, complementando o sucesso esparso na amostragem online; (2) ajuste dinâmico do número de execuções e comprimentos de trajetórias com base na dificuldade da tarefa; (3) treinamento seletivo em etapas de alta entropia para priorizar decisões críticas; (4) estabilização do aprendizado via amostragem de importância truncada para descompasso de políticas entre execução e atualização. No benchmark OSWorld, o DART-GUI-7B alcança uma taxa de sucesso de tarefas de 42,13%, um ganho absoluto de 14,61% sobre o modelo base e 7,34% superior ao SOTA de código aberto. Disponibilizaremos integralmente nosso framework de treinamento, dados e checkpoints de modelo em computer-use-agents.github.io/dart-gui, o que acreditamos ser uma contribuição oportuna para a comunidade de código aberto de treinamento de RL agêntico.
English
Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.
PDF122September 30, 2025