ChatPaper.aiChatPaper

効率的なマルチターンRLによるGUIエージェントのための 分離型トレーニングと適応的データキュレーション

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

September 28, 2025
著者: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
cs.AI

要旨

ビジョン言語モデル(VLM)ベースのGUIエージェントは、複雑なデスクトップおよびモバイルタスクの自動化において有望ですが、強化学習(RL)を適用する際に重大な課題に直面しています:(1)GUI環境との多段階インタラクションが遅く、ポリシーのロールアウトに時間がかかること、(2)ポリシー学習のための高品質なエージェントと環境のインタラクションが不十分であることです。これらの課題に対処するため、我々はDART(Decoupled Agentic RL Training)フレームワークを提案します。これは、GUIエージェントのために高度に分離された方法で異種モジュールを調整するものです。DARTは、トレーニングシステムを4つの非同期モジュールに分離します:環境クラスタ、ロールアウトサービス、データマネージャ、トレーナーです。この設計により、非ブロッキング通信、非同期トレーニング、ロールアウト単位の軌跡サンプリング、およびワーカーごとのモデル同期が可能となり、システム効率が大幅に向上します:ロールアウトのGPU利用率が1.6倍、トレーニングスループットが1.9倍、環境利用率が5.5倍になります。豊富なサンプルから効果的に学習するため、我々は適応型データキュレーションスキームを導入します:(1)オンラインサンプリングでの成功が稀な難しいタスクのために、事前に成功した軌跡を収集すること、(2)タスクの難易度に基づいてロールアウト数と軌跡の長さを動的に調整すること、(3)重要な意思決定を優先するために、高エントロピーのステップを選択的にトレーニングすること、(4)ポリシーロールアウトと更新の間のポリシーの不一致に対して、切り捨て重要度サンプリングを用いて学習を安定化することです。OSWorldベンチマークにおいて、DART-GUI-7Bは42.13%のタスク成功率を達成し、ベースモデルに対して14.61%の絶対的な向上を示し、オープンソースのSOTAよりも7.34%高い結果を出しました。我々は、トレーニングフレームワーク、データ、およびモデルチェックポイントをcomputer-use-agents.github.io/dart-guiを通じて完全にオープンソース化します。これは、エージェント強化学習トレーニングのオープンソースコミュニティへのタイムリーな貢献であると信じています。
English
Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.
PDF72September 30, 2025