CUA-Gym: Масштабирование верифицируемых учебных сред и задач для агентов, использующих компьютер

Аннотация

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) привело к прорывам в таких областях, как математика, использование инструментов и разработка программного обеспечения, однако его расширение на агентов взаимодействия с компьютером (CUA) было затруднено нехваткой масштабируемых обучающих данных с детерминированными вознаграждениями. Создание таких данных для CUA требует согласованной инструкции задачи, исполняемой среды и проверяемого вознаграждения. Однако эталонные тесты, составленные вручную, обеспечивают высокую точность вознаграждений, но охватывают мало приложений, а наборы данных, основанные на оценке с помощью LLM, масштабируются широко, но не обладают надежной проверяемостью. Мы представляем CUA-Gym — масштабируемый конвейер, который совместно генерирует инструкции задач, состояния среды и функции вознаграждения. Конкретно, агент-генератор создает начальное и эталонное состояния среды, а отдельный агент-дискриминатор записывает функцию вознаграждения на основе спецификации задачи. Агент-оркестратор управляет ими в итеративных раундах после выполнения. Сгенерированные кортежи затем проходят финальный фильтр, объединяющий голосование большинством LLM и развертывания агентов, что обеспечивает качество, превосходящее поочередный состязательный цикл. Для решения проблемы нехватки обучающих сред мы дополнительно синтезируем CUA-Gym-Hub — широкий набор высокоточных имитационных веб-приложений, основанных на распределениях использования реального программного обеспечения, что позволяет на порядок увеличить масштаб данных RLVR для CUA. С помощью этого конвейера мы создаем CUA-Gym — набор данных из 32 112 проверенных обучающих кортежей RLVR, основанных на 110 средах. Обученные с использованием GSPO на CUA-Gym, наши модели CUA-Gym-A3B и CUA-Gym-A17B достигают 62,1% и 72,6% на OSWorld-Verified, превосходя предыдущие открытые CUA сопоставимых масштабов, при этом производительность плавно масштабируется как с объемом данных, так и с разнообразием сред. Те же контрольные точки также улучшают показатели на отложенном бенчмарке WebArena, что указывает на перенос обучения за пределы тренировочных сред. Мы откроем исходный код полного конвейера синтеза, набора данных, сред CUA-Gym-Hub и моделей.

English

Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.