CUA-Gym: Het schalen van verifieerbare trainingsomgevingen en taken voor computergebruikagenten

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) heeft doorbraken mogelijk gemaakt in domeinen zoals wiskunde, toolgebruik en software-engineering, maar de uitbreiding ervan naar computergebruikagenten (CUAs) wordt gebottlenecked door de schaarste aan schaalbare trainingsdata met deterministische beloningen. Het construeren van dergelijke data voor CUAs vereist consistente taakinstructies, een uitvoerbare omgeving en een verifieerbare beloning. Handmatig samengestelde benchmarks bereiken echter een hoge beloningsgetrouwheid, maar bestrijken slechts een beperkt aantal toepassingen, terwijl datasets op basis van LLM-als-rechter wel breed schalen, maar geen betrouwbare verificatie bieden. We presenteren CUA-Gym, een schaalbare pijplijn die taakinstructies, omgevingstoestanden en beloningsfuncties co-genereert. Concreet construeert een Generatoragent de initiële en gouden omgevingstoestanden, en een aparte Discriminatoragent schrijft de beloningsfunctie op basis van de taakspecificatie. Een orkestratoragent drijft de twee door middel van iteratieve rondes tijdens uitvoering aan. Gegenereerde tuples passeren vervolgens een eindfilter dat LLM-meerderheidsstemming combineert met agent-uitrols, wat de kwaliteit waarborgt, voorbij de per-taak adversary-lus. Om de schaarste aan trainingsomgevingen aan te pakken, synthetiseren we bovendien CUA-Gym-Hub, een brede suite van hooggetrouwe mock-webapplicaties die gebaseerd zijn op realistische softwaregebruiksverdelingen, waarmee de schaal van CUA-RLVR-data met een orde van grootte wordt vergroot. Met deze pijplijn construeren we CUA-Gym, een dataset van 32.112 geverifieerde RLVR-trainingsduples, geworteld in 110 omgevingen. Getraind met GSPO op CUA-Gym, bereiken onze CUA-Gym-A3B en CUA-Gym-A17B respectievelijk 62,1% en 72,6% op OSWorld-Verified, waarmee ze eerdere open-source CUAs van vergelijkbare schaal overtreffen, met een soepele schaling in zowel datavolume als omgevingsdiversiteit. Dezelfde checkpoints verbeteren ook op de aparte WebArena-benchmark, wat wijst op transfer buiten de trainingsomgevingen. We zullen de volledige synthese-pijplijn, dataset, CUA-Gym-Hub-omgevingen en modellen open-sourcen.

English

Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.