ClawGym: Un Framework Scalabile per la Costruzione di Agenti Claw Efficaci

Abstract

Gli ambienti di tipo Claw supportano flussi di lavoro multi-step su file locali, strumenti e stati persistenti dell'area di lavoro. Tuttavia, lo sviluppo scalabile attorno a questi ambienti rimane limitato dall'assenza di un framework sistematico, in particolare per la sintesi di dati di addestramento verificabili e la loro integrazione con l'addestramento degli agenti e la valutazione diagnostica. Per affrontare questa sfida, presentiamo ClawGym, un framework scalabile che supporta l'intero ciclo di vita dello sviluppo di agenti personali di tipo Claw. Nello specifico, costruiamo ClawGym-SynData, un dataset diversificato di 13.5K task filtrati sintetizzati a partire da intenti guidati da persona e operazioni ancorate a competenze, abbinati a mock workspace realistici e meccanismi di verifica ibridi. Addestriamo quindi una famiglia di modelli capaci di tipo Claw, denominati ClawGym-Agents, attraverso fine-tuning supervisionato su traiettorie di rollout di tipo black-box, ed esploriamo ulteriormente l'apprendimento per rinforzo mediante una pipeline leggera che parallelizza i rollout su sandbox per-task. Per supportare una valutazione affidabile, costruiamo inoltre ClawGym-Bench, un benchmark di 200 istanze calibrate attraverso filtraggio automatico e revisione umana-LLM. Le risorse relative saranno presto rilasciate su https://github.com/ClawGym.

English

Claw-style environments support multi-step workflows over local files, tools, and persistent workspace states. However, scalable development around these environments remains constrained by the absence of a systematic framework, especially one for synthesizing verifiable training data and integrating it with agent training and diagnostic evaluation. To address this challenge, we present ClawGym, a scalable framework that supports the full lifecycle of Claw-style personal agent development. Concretely, we construct ClawGym-SynData, a diverse dataset of 13.5K filtered tasks synthesized from persona-driven intents and skill-grounded operations, paired with realistic mock workspaces and hybrid verification mechanisms. We then train a family of capable Claw-style models, termed ClawGym-Agents, through supervised fine-tuning on black-box rollout trajectories, and further explore reinforcement learning via a lightweight pipeline that parallelizes rollouts across per-task sandboxes.To support reliable evaluation, we further construct ClawGym-Bench, a benchmark of 200 instances calibrated through automated filtering and human-LLM review. Relevant resources will be soon released at https://github.com/ClawGym.

ClawGym: Un Framework Scalabile per la Costruzione di Agenti Claw Efficaci

ClawGym: A Scalable Framework for Building Effective Claw Agents

Abstract

Support