ChatPaper.aiChatPaper

ClawEnvKit: Generazione Automatica di Ambienti per Agenti Simili ad Artigli

ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

April 20, 2026
Autori: Xirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou
cs.AI

Abstract

La costruzione di ambienti per l'addestramento e la valutazione di agenti ad artiglio rimane un processo manuale e ad alta intensità di lavoro umano che non è scalabile. Sosteniamo che ciò che serve non è solo un dataset, ma una pipeline automatizzata in grado di generare ambienti diversificati e verificati su richiesta. A tal fine, presentiamo ClawEnvKit, una pipeline di generazione autonoma che concretizza questo formalismo a partire da descrizioni in linguaggio naturale. La pipeline comprende tre moduli: (1) un parser che estrae parametri strutturati di generazione dall'input in linguaggio naturale; (2) un generatore che produce la specifica del task, l'interfaccia dello strumento e la configurazione del punteggio; e (3) un validatore che impone fattibilità, diversità, validità strutturale e coerenza interna tra gli ambienti generati. Utilizzando ClawEnvKit, costruiamo Auto-ClawEval, il primo benchmark su larga scala per agenti ad artiglio, comprendente 1.040 ambienti suddivisi in 24 categorie. Empiricamente, Auto-ClawEval eguaglia o supera gli ambienti curati manualmente in coerenza e chiarezza a un costo 13.800 volte inferiore. Valutando 4 famiglie di modelli e 8 framework di agenti, riscontriamo che l'ingegneria dell'harness aumenta le prestazioni fino a 15,7 punti percentuali rispetto a una baseline ReAct spoglia, che il completamento rimane l'asse principale di variazione senza che alcun modello saturi il benchmark, e che la generazione automatizzata consente valutazioni su una scala precedentemente irrealizzabile. Oltre al benchmarking statico, ClawEnvKit abilita la valutazione in tempo reale: gli utenti descrivono una capacità desiderata in linguaggio naturale e ottengono un ambiente verificato su richiesta, trasformando la valutazione in un processo continuo e guidato dall'utente. Lo stesso meccanismo funge da generatore di ambienti di addestramento on-demand, producendo distribuzioni di task che si adattano alle debolezze attuali di un agente piuttosto che essere limitate dai log utente esistenti.
English
Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.
PDF181April 22, 2026