CUA-Gym: コンピュータ利用エージェントのための検証可能な訓練環境とタスクのスケーリング
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents
May 25, 2026
著者: Bowen Wang, Dunjie Lu, Junli Wang, Tianyi Bai, Shixuan Liu, Zhipeng Zhang, Haiquan Wang, Hao Hu, Tianbao Xie, Shuai Bai, Dayiheng Liu, Que Shen, Junyang Lin, Tao Yu
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、数学、ツール使用、ソフトウェア工学などの領域で画期的な進展をもたらしてきたが、コンピュータ操作エージェント(CUA)への拡張は、決定論的な報酬を伴うスケーラブルな訓練データが不足していることによって阻害されてきた。CUA向けのそのようなデータを構築するには、一貫したタスク指示、実行可能な環境、検証可能な報酬が必要となる。しかし、手作業でキュレーションされたベンチマークは高い報酬の忠実性を実現するものの、カバーするアプリケーションは少数にとどまり、LLM判定に基づくデータセットは広範囲にスケールするものの、信頼性の高い検証を欠いている。我々はCUA-Gymを提案する。これは、タスク指示、環境状態、報酬関数を同時生成するスケーラブルなパイプラインである。具体的には、Generatorエージェントが初期状態とgolden状態を構築し、別のDiscriminatorエージェントがタスク仕様から報酬関数を記述する。オーケストレータエージェントが両者を駆動し、実行時の反復ラウンドを経て進める。生成されたタプルは最終フィルター(LLM多数決とエージェントロールアウトを組み合わせたもの)を通過し、タスクごとの敵対的ループを超えた品質を保証する。訓練環境の不足に対処するため、さらにCUA-Gym-Hubを合成する。これは、実世界のソフトウェア利用分布に基づく高忠実なモックWebアプリケーションの広範なスイートであり、CUA向けRLVRデータの規模を桁違いに拡大する。このパイプラインを用いて、我々はCUA-Gymを構築した。これは110の環境に基づく32,112の検証済みRLVR訓練タプルからなるデータセットである。CUA-Gym上でGSPOを用いて訓練されたCUA-Gym-A3BおよびCUA-Gym-A17Bは、OSWorld-Verifiedにおいて62.1%と72.6%を達成し、同等の規模の既存のオープンソースCUAを上回り、データ量と環境多様性の両方に対して性能が滑らかにスケールする。同じチェックポイントは、ホールドアウトされたWebArenaベンチマークでも改善を示し、訓練環境を超えた転移を示唆している。我々は、合成パイプライン全体、データセット、CUA-Gym-Hub環境、およびモデルをオープンソース化する予定である。
English
Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.