ChatPaper.aiChatPaper

Aprendizaje por Refuerzo Multi-turn Eficiente para Agentes de Interfaz Gráfica mediante Entrenamiento Desacoplado y Curación de Datos Adaptativa

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

September 28, 2025
Autores: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI

Resumen

Los agentes de interfaz gráfica de usuario (GUI) basados en modelos de visión-lenguaje (VLM) muestran potencial para automatizar tareas complejas en entornos de escritorio y móviles, pero enfrentan desafíos significativos al aplicar el aprendizaje por refuerzo (RL): (1) interacciones multiturno lentas con entornos de GUI para el despliegue de políticas, y (2) interacciones insuficientes y de baja calidad entre el agente y el entorno para el aprendizaje de políticas. Para abordar estos desafíos, proponemos DART, un marco de Entrenamiento de Aprendizaje por Refuerzo Agéntico Desacoplado para agentes de GUI, que coordina módulos heterogéneos de manera altamente desacoplada. DART separa el sistema de entrenamiento en cuatro módulos asíncronos: clúster de entorno, servicio de despliegue, gestor de datos y entrenador. Este diseño permite comunicación no bloqueante, entrenamiento asíncrono, muestreo de trayectorias por despliegue y sincronización de modelos por trabajador, mejorando significativamente la eficiencia del sistema: 1.6* de utilización de GPU para el despliegue, 1.9* de rendimiento en el entrenamiento y 5.5* de utilización del entorno. Para facilitar un aprendizaje efectivo a partir de muestras abundantes, introducimos un esquema de curación de datos adaptativo: (1) pre-recolección de trayectorias exitosas para tareas desafiantes para complementar el éxito escaso en el muestreo en línea; (2) ajuste dinámico del número de despliegues y la longitud de las trayectorias según la dificultad de la tarea; (3) entrenamiento selectivo en pasos de alta entropía para priorizar decisiones críticas; (4) estabilización del aprendizaje mediante muestreo de importancia truncado para el desajuste de políticas entre el despliegue y la actualización de políticas. En el benchmark OSWorld, DART-GUI-7B logra una tasa de éxito en tareas del 42.13%, una mejora absoluta del 14.61% sobre el modelo base y un 7.34% más que el estado del arte (SOTA) de código abierto. Abriremos completamente nuestro marco de entrenamiento, datos y puntos de control del modelo a través de computer-use-agents.github.io/dart-gui, lo que consideramos una contribución oportuna a la comunidad de código abierto en el entrenamiento agéntico de RL.
English
Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.
PDF72September 30, 2025