CUA-Gym : Mise à l’échelle d’environnements et de tâches d’entraînement vérifiables pour agents d’utilisation d’ordinateur

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a permis des avancées majeures dans des domaines tels que les mathématiques, l'utilisation d'outils et le génie logiciel, mais son extension aux agents d'utilisation d'ordinateur (CUA) a été freinée par la rareté des données d'entraînement passibles avec des récompenses déterministes. Construire de telles données pour les CUA nécessite une instruction de tâche cohérente, un environnement exécutable et une récompense vérifiable. Cependant, les benchmarks conçus manuellement offrent une grande fidélité des récompenses mais couvrent peu d'applications, tandis que les ensembles de données basés sur un LLM en tant que juge s'étendent largement mais manquent de vérification fiable. Nous présentons CUA-Gym, un pipeline passible qui génère conjointement les instructions de tâche, les états d'environnement et les fonctions de récompense. Concrètement, un agent générateur construit les états initial et idéal de l'environnement, et un agent discriminateur distinct rédige la fonction de récompense à partir de la spécification de la tâche. Un agent orchestrateur pilote les deux à travers des itérations successives lors de l'exécution. Les tuples générés passent ensuite un filtre final combinant un vote majoritaire du LLM et des déploiements d'agents, garantissant une qualité au-delà de la boucle adverse par tâche. Pour remédier à la rareté des environnements d'entraînement, nous synthétisons en outre CUA-Gym-Hub, un vaste ensemble d'applications web simulées de haute fidélité, ancrées dans les distributions réelles d'utilisation de logiciels, multipliant ainsi l'échelle des données RLVR pour CUA. En utilisant ce pipeline, nous construisons CUA-Gym, un ensemble de données de 32 112 tuples d'entraînement RLVR vérifiés, reposant sur 110 environnements. Entraînés avec GSPO sur CUA-Gym, nos modèles CUA-Gym-A3B et CUA-Gym-A17B atteignent respectivement 62,1 % et 72,6 % sur OSWorld-Verified, surpassant les CUA open source précédents à des échelles comparables, avec une performance augmentant régulièrement en fonction du volume de données et de la diversité des environnements. Les mêmes points de contrôle s'améliorent également sur le benchmark indépendant WebArena, indiquant un transfert au-delà des environnements d'entraînement. Nous rendrons open source l'intégralité du pipeline de synthèse, l'ensemble de données, les environnements CUA-Gym-Hub et les modèles.

English

Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.