ClawGym: Uma Estrutura Escalável para a Construção de Agentes Claw Eficazes

Resumo

Ambientes do tipo Claw suportam fluxos de trabalho de múltiplos passos sobre ficheiros locais, ferramentas e estados persistentes de espaço de trabalho. No entanto, o desenvolvimento escalável em torno destes ambientes continua limitado pela ausência de uma estrutura sistemática, especialmente uma para sintetizar dados de treino verificáveis e integrá-los com o treino de agentes e avaliação diagnóstica. Para enfrentar este desafio, apresentamos o ClawGym, uma estrutura escalável que suporta o ciclo de vida completo do desenvolvimento de agentes pessoais do tipo Claw. Concretamente, construímos o ClawGym-SynData, um conjunto de dados diversificado de 13,5 mil tarefas filtradas, sintetizadas a partir de intenções baseadas em persona e operações fundamentadas em competências, emparelhadas com espaços de trabalho simulados realistas e mecanismos de verificação híbridos. De seguida, treinamos uma família de modelos capazes do tipo Claw, denominados ClawGym-Agents, através de afinação supervisionada em trajectórias de execução de caixa negra, e exploramos ainda a aprendizagem por reforço através de um *pipeline* leve que paraleliza execuções em *sandboxes* por tarefa. Para suportar uma avaliação fiável, construímos ainda o ClawGym-Bench, um *benchmark* de 200 instâncias calibradas através de filtragem automática e revisão humano-LLM. Os recursos relevantes serão brevemente disponibilizados em https://github.com/ClawGym.

English

Claw-style environments support multi-step workflows over local files, tools, and persistent workspace states. However, scalable development around these environments remains constrained by the absence of a systematic framework, especially one for synthesizing verifiable training data and integrating it with agent training and diagnostic evaluation. To address this challenge, we present ClawGym, a scalable framework that supports the full lifecycle of Claw-style personal agent development. Concretely, we construct ClawGym-SynData, a diverse dataset of 13.5K filtered tasks synthesized from persona-driven intents and skill-grounded operations, paired with realistic mock workspaces and hybrid verification mechanisms. We then train a family of capable Claw-style models, termed ClawGym-Agents, through supervised fine-tuning on black-box rollout trajectories, and further explore reinforcement learning via a lightweight pipeline that parallelizes rollouts across per-task sandboxes.To support reliable evaluation, we further construct ClawGym-Bench, a benchmark of 200 instances calibrated through automated filtering and human-LLM review. Relevant resources will be soon released at https://github.com/ClawGym.

ClawGym: Uma Estrutura Escalável para a Construção de Agentes Claw Eficazes

ClawGym: A Scalable Framework for Building Effective Claw Agents

Resumo

Support