ClawGym: 효과적인 Claw 에이전트 구축을 위한 확장 가능한 프레임워크
ClawGym: A Scalable Framework for Building Effective Claw Agents
April 29, 2026
저자: Fei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao
cs.AI
초록
Claw 스타일 환경은 로컬 파일, 도구, 지속적 작업 공간 상태에 대한 다단계 워크플로우를 지원합니다. 그러나 이러한 환경을 통한 확장 가능한 개발은 특히 검증 가능한 훈련 데이터 합성 및 에이전트 훈련, 진단 평가와의 통합을 위한 체계적인 프레임워크가 부족하여 여전히 제약을 받고 있습니다. 이러한 문제를 해결하기 위해 우리는 Claw 스타일 개인 에이전트 개발의 전체 라이프사이클을 지원하는 확장 가능한 프레임워크인 ClawGym을 제시합니다. 구체적으로 우리는 페르소나 기반 의도와 기술 기반 작업에서 합성된 13.5K개의 필터링된 다양한 태스크 데이터셋인 ClawGym-SynData를 구축하였으며, 이는 현실적인 모의 작업 공간과 하이브리드 검증 메커니즘과 쌍을 이룹니다. 이후 우리는 블랙박스 롤아웟 궤적에 대한 지도 미세 조정을 통해 ClawGym-Agents라고 명명된 능력 있는 Claw 스타일 모델 군을 훈련시키고, 태스크별 샌드박스에서 롤아웟을 병렬화하는 경량 파이프라인을 통해 강화 학습을 추가로 탐구합니다. 신뢰할 수 있는 평가를 지원하기 위해 우리는 자동화된 필터링과 인간-LLM 검토를 통해 보정된 200개 인스턴스의 벤치마크인 ClawGym-Bench를 추가로 구축합니다. 관련 자료는 https://github.com/ClawGym에서 곧 공개될 예정입니다.
English
Claw-style environments support multi-step workflows over local files, tools, and persistent workspace states. However, scalable development around these environments remains constrained by the absence of a systematic framework, especially one for synthesizing verifiable training data and integrating it with agent training and diagnostic evaluation. To address this challenge, we present ClawGym, a scalable framework that supports the full lifecycle of Claw-style personal agent development. Concretely, we construct ClawGym-SynData, a diverse dataset of 13.5K filtered tasks synthesized from persona-driven intents and skill-grounded operations, paired with realistic mock workspaces and hybrid verification mechanisms. We then train a family of capable Claw-style models, termed ClawGym-Agents, through supervised fine-tuning on black-box rollout trajectories, and further explore reinforcement learning via a lightweight pipeline that parallelizes rollouts across per-task sandboxes.To support reliable evaluation, we further construct ClawGym-Bench, a benchmark of 200 instances calibrated through automated filtering and human-LLM review. Relevant resources will be soon released at https://github.com/ClawGym.