CUA-Gym: Escalamiento de entornos de entrenamiento y tareas verificables para agentes de uso de computadoras

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) ha impulsado avances en dominios como las matemáticas, el uso de herramientas y la ingeniería de software; sin embargo, su extensión a agentes de uso de computadoras (CUAs) se ha visto limitada por la escasez de datos de entrenamiento escalables con recompensas deterministas. Construir tales datos para CUAs requiere instrucciones de tarea consistentes, un entorno ejecutable y una recompensa verificable. No obstante, los benchmarks curados manualmente logran una alta fidelidad de recompensa pero cubren pocas aplicaciones, mientras que los conjuntos de datos basados en LLM como juez escalan ampliamente pero carecen de una verificación fiable. Presentamos CUA-Gym, un pipeline escalable que co-genera instrucciones de tarea, estados del entorno y funciones de recompensa. Concretamente, un agente Generador construye los estados inicial y dorado del entorno, y un agente Discriminador independiente escribe la función de recompensa a partir de la especificación de la tarea. Un agente orquestador impulsa a ambos mediante rondas iterativas tras la ejecución. Las tuplas generadas pasan luego por un filtro final que combina votación mayoritaria de LLM y ejecuciones de agentes, garantizando una calidad más allá del bucle adversarial por tarea. Para abordar la escasez de entornos de entrenamiento, sintetizamos además CUA-Gym-Hub, un amplio conjunto de aplicaciones web simuladas de alta fidelidad basadas en distribuciones de uso de software del mundo real, expandiendo la escala de los datos de RLVR para CUA en un orden de magnitud. Usando este pipeline, construimos CUA-Gym, un conjunto de datos de 32,112 tuplas de entrenamiento RLVR verificadas basadas en 110 entornos. Entrenados con GSPO en CUA-Gym, nuestros modelos CUA-Gym-A3B y CUA-Gym-A17B alcanzan un 62.1% y 72.6% en OSWorld-Verified, superando a CUAs de código abierto previos a escalas comparables, con un rendimiento que escala suavemente tanto en volumen de datos como en diversidad de entornos. Los mismos checkpoints también mejoran en el benchmark reservado WebArena, lo que indica transferencia más allá de los entornos de entrenamiento. Publicaremos como código abierto el pipeline de síntesis completo, el conjunto de datos, los entornos de CUA-Gym-Hub y los modelos.

English

Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.