CUA-Gym: Escalando Ambientes e Tarefas de Treinamento Verificáveis para Agentes de Uso de Computador
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents
May 25, 2026
Autores: Bowen Wang, Dunjie Lu, Junli Wang, Tianyi Bai, Shixuan Liu, Zhipeng Zhang, Haiquan Wang, Hao Hu, Tianbao Xie, Shuai Bai, Dayiheng Liu, Que Shen, Junyang Lin, Tao Yu
cs.AI
Resumo
Aprendizado por reforço com recompensas verificáveis (RLVR) impulsionou avanços em domínios como matemática, uso de ferramentas e engenharia de software, mas sua extensão para agentes de uso de computador (CUAs) tem sido limitada pela escassez de dados de treinamento escaláveis com recompensas determinísticas. Construir tais dados para CUAs requer instruções de tarefa consistentes, ambientes executáveis e recompensas verificáveis. No entanto, benchmarks curados manualmente alcançam alta fidelidade de recompensa, mas abrangem poucas aplicações, enquanto conjuntos de dados baseados em LLM como juiz escalam amplamente, mas carecem de verificação confiável. Apresentamos o CUA-Gym, um pipeline escalável que co-gera instruções de tarefa, estados de ambiente e funções de recompensa. Concretamente, um Agente Gerador constrói os estados de ambiente iniciais e dourados, e um Agente Discriminador separado escreve a função de recompensa a partir da especificação da tarefa. Um agente orquestrador conduz ambos por meio de rodadas iterativas durante a execução. As tuplas geradas passam então por um filtro final que combina votação majoritária de LLM e execuções do agente, garantindo qualidade além do loop adversarial por tarefa. Para lidar com a escassez de ambientes de treinamento, sintetizamos ainda o CUA-Gym-Hub, um amplo conjunto de aplicações web simuladas de alta fidelidade, fundamentadas em distribuições reais de uso de software, expandindo a escala dos dados de RLVR para CUAs por uma ordem de magnitude. Usando este pipeline, construímos o CUA-Gym, um conjunto de dados de 32.112 tuplas de treinamento RLVR verificadas, fundamentadas em 110 ambientes. Treinados com GSPO no CUA-Gym, nossos CUA-Gym-A3B e CUA-Gym-A17B alcançam 62,1% e 72,6% no OSWorld-Verified, superando CUAs open-source anteriores em escalas comparáveis, com desempenho escalando suavemente tanto no volume de dados quanto na diversidade de ambientes. Os mesmos checkpoints também melhoram no benchmark WebArena reservado, indicando transferência além dos ambientes de treinamento. Disponibilizaremos como código aberto o pipeline completo de síntese, o conjunto de dados, os ambientes do CUA-Gym-Hub e os modelos.
English
Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.