ClawEnvKit: Geração Automática de Ambientes para Agentes Tipo-Garra
ClawEnvKit: Automatic Environment Generation for Claw-Like Agents
April 20, 2026
Autores: Xirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou
cs.AI
Resumo
A construção de ambientes para treinar e avaliar agentes semelhantes a garras continua a ser um processo manual e intensivo em recursos humanos que não é escalável. Argumentamos que o necessário não é apenas um conjunto de dados, mas um *pipeline* automatizado capaz de gerar ambientes diversos e verificados sob demanda. Para esse fim, apresentamos o ClawEnvKit, um *pipeline* de geração autónoma que instancia este formalismo a partir de descrições em linguagem natural. O *pipeline* compreende três módulos: (1) um analisador que extrai parâmetros estruturados de geração a partir da entrada em linguagem natural; (2) um gerador que produz a especificação da tarefa, a interface da ferramenta e a configuração de pontuação; e (3) um validador que impõe viabilidade, diversidade, validade estrutural e consistência interna em todos os ambientes gerados. Usando o ClawEnvKit, construímos o Auto-ClawEval, o primeiro *benchmark* em larga escala para agentes semelhantes a garras, compreendendo 1.040 ambientes em 24 categorias. Empiricamente, o Auto-ClawEval iguala ou supera ambientes curados por humanos em coerência e clareza a um custo 13.800 vezes menor. Avaliado em 4 famílias de modelos e 8 *frameworks* de agentes, descobrimos que a engenharia de *harness* aumenta o desempenho em até 15,7 pontos percentuais em relação a uma linha de base ReAct simples, a conclusão permanece sendo o principal eixo de variação sem que nenhum modelo sature o *benchmark*, e a geração automatizada permite a avaliação em uma escala anteriormente inviável. Para além da avaliação estática, o ClawEnvKit permite a avaliação em tempo real: os utilizadores descrevem uma capacidade desejada em linguagem natural e obtêm um ambiente verificado sob demanda, transformando a avaliação num processo contínuo e orientado pelo utilizador. O mesmo mecanismo serve como um gerador de ambientes de treino sob demanda, produzindo distribuições de tarefas que se adaptam às fraquezas atuais de um agente, em vez de serem limitadas por registos de utilizador existentes.
English
Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.