CUA-Gym: Skalierung verifizierbarer Trainingsumgebungen und Aufgaben für Computer-Use-Agenten

Zusammenfassung

Bestärkungslernen mit verifizierbaren Belohnungen (RLVR) hat Durchbrüche in Bereichen wie Mathematik, Werkzeugnutzung und Softwareentwicklung ermöglicht, doch seine Ausweitung auf Computer-Use-Agenten (CUAs) wird durch die Knappheit skalierbarer Trainingsdaten mit deterministischen Belohnungen eingeschränkt. Die Erstellung solcher Daten für CUAs erfordert konsistente Aufgabenanweisungen, eine ausführbare Umgebung und eine verifizierbare Belohnung. Handkuratierte Benchmarks erreichen zwar eine hohe Belohnungstreue, decken jedoch nur wenige Anwendungen ab, und auf LLM-als-Judge basierende Datensätze skalieren zwar breit, entbehren jedoch einer zuverlässigen Verifikation. Wir stellen CUA-Gym vor, eine skalierbare Pipeline, die gemeinsam Aufgabenanweisungen, Umgebungszustände und Belohnungsfunktionen generiert. Konkret erstellt ein Generator-Agent die initialen und goldenen Umgebungszustände, und ein separater Diskriminator-Agent schreibt die Belohnungsfunktion aus der Aufgabenspezifikation. Ein Orchestrator-Agent treibt die beiden durch iterative Runden nach der Ausführung an. Generierte Tupel durchlaufen dann einen abschließenden Filter, der LLM-Mehrheitsabstimmung und Agenten-Rollouts kombiniert, um eine Qualität jenseits der aufgabenbezogenen adversarialen Schleife sicherzustellen. Um der Knappheit an Trainingsumgebungen zu begegnen, synthetisieren wir weiterhin CUA-Gym-Hub, eine breite Suite hochtreuer simulierter Webanwendungen, die auf realen Softwarenutzungsverteilungen basieren und den Umfang der CUA-RLVR-Daten um Größenordnungen erweitern. Mit dieser Pipeline erstellen wir CUA-Gym, einen Datensatz von 32.112 verifizierten RLVR-Trainings-Tupeln, die in 110 Umgebungen verankert sind. Trainiert mit GSPO auf CUA-Gym, erreichen unsere CUA-Gym-A3B und CUA-Gym-A17B 62,1 % bzw. 72,6 % auf OSWorld-Verified und übertreffen damit frühere Open-Source-CUAs vergleichbarer Größe, wobei die Leistung sowohl mit dem Datenvolumen als auch mit der Umgebungsvielfalt gleichmäßig skaliert. Dieselben Checkpoints verbessern sich auch auf dem zurückgehaltenen WebArena-Benchmark, was auf einen Transfer über die Trainingsumgebungen hinaus hindeutet. Wir werden die vollständige Synthese-Pipeline, den Datensatz, die CUA-Gym-Hub-Umgebungen und die Modelle als Open Source veröffentlichen.

English

Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.