ClawGym: Масштабируемая платформа для создания эффективных Claw-агентов

Аннотация

Среды типа Claw поддерживают многошаговые рабочие процессы с локальными файлами, инструментами и устойчивыми состояниями рабочего пространства. Однако масштабируемая разработка в таких средах остаётся ограниченной из-за отсутствия систематической инфраструктуры, в частности, для синтеза верифицируемых обучающих данных и их интеграции с обучением агентов и диагностической оценкой. Для решения этой проблемы мы представляем ClawGym — масштабируемую инфраструктуру, поддерживающую полный жизненный цикл разработки персональных агентов в стиле Claw. Конкретно мы создаём ClawGym-SynData — разнообразный набор из 13,5 тыс. отфильтрованных задач, синтезированных на основе персонализированных интентов и операций, основанных на навыках, в паре с реалистичными макетами рабочих пространств и гибридными механизмами верификации. Затем мы обучаем семейство эффективных моделей в стиле Claw, названных ClawGym-Agents, с помощью контролируемого тонкого обучения на траекториях развёртывания типа "чёрный ящик", а также исследуем обучение с подкреплением через облегчённый конвейер, параллелизующий развёртывание в песочницах для каждой задачи. Для обеспечения достоверной оценки мы дополнительно создаём ClawGym-Bench — бенчмарк из 200 экземпляров, откалиброванных с помощью автоматической фильтрации и проверки человеком-LLM. Соответствующие ресурсы будут скоро выпущены по адресу https://github.com/ClawGym.

English

Claw-style environments support multi-step workflows over local files, tools, and persistent workspace states. However, scalable development around these environments remains constrained by the absence of a systematic framework, especially one for synthesizing verifiable training data and integrating it with agent training and diagnostic evaluation. To address this challenge, we present ClawGym, a scalable framework that supports the full lifecycle of Claw-style personal agent development. Concretely, we construct ClawGym-SynData, a diverse dataset of 13.5K filtered tasks synthesized from persona-driven intents and skill-grounded operations, paired with realistic mock workspaces and hybrid verification mechanisms. We then train a family of capable Claw-style models, termed ClawGym-Agents, through supervised fine-tuning on black-box rollout trajectories, and further explore reinforcement learning via a lightweight pipeline that parallelizes rollouts across per-task sandboxes.To support reliable evaluation, we further construct ClawGym-Bench, a benchmark of 200 instances calibrated through automated filtering and human-LLM review. Relevant resources will be soon released at https://github.com/ClawGym.

ClawGym: Масштабируемая платформа для создания эффективных Claw-агентов

ClawGym: A Scalable Framework for Building Effective Claw Agents

Аннотация

Support