ChatPaper.aiChatPaper

ClawEnvKit: Automatische Generatie van Omgevingen voor Klauwachtige Agenten

ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

April 20, 2026
Auteurs: Xirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou
cs.AI

Samenvatting

Het construeren van omgevingen voor het trainen en evalueren van grijperachtige agents blijft een manueel, arbeidsintensief proces dat niet schaalbaar is. Wij stellen dat wat nodig is niet slechts een dataset is, maar een geautomatiseerde pijplijn die in staat is om op verzoek diverse, geverifieerde omgevingen te genereren. Hiertoe introduceren wij ClawEnvKit, een autonoom generatieproces dat deze formalisering instantieert vanuit natuurlijke-taalbeschrijvingen. De pijplijn bestaat uit drie modules: (1) een parser die gestructureerde generatieparameters uit natuurlijke-taalinvoer extraheert; (2) een generator die de taakspecificatie, toolinterface en scoringsconfiguratie produceert; en (3) een validator die haalbaarheid, diversiteit, structurele geldigheid en interne consistentie over de gegenereerde omgevingen afdwingt. Met ClawEnvKit construeren wij Auto-ClawEval, de eerste grootschalige benchmark voor grijperachtige agents, bestaande uit 1.040 omgevingen verdeeld over 24 categorieën. Empirisch gezien evenaart of overtreft Auto-ClawEval door mensen samengestelde omgevingen qua coherentie en helderheid tegen 13.800x lagere kosten. Geëvalueerd over 4 modelfamilies en 8 agent-harnasframeworks, constateren wij dat harnasengineering de prestaties met tot 15,7 procentpunt verbetert ten opzichte van een kale ReAct-basislijn, voltooiing de primaire variatie-as blijft zonder enig model dat de benchmark verzadigt, en geautomatiseerde generatie evaluatie op een voorheen onhaalbaar grote schaal mogelijk maakt. Naast statische benchmarking maakt ClawEnvKit live-evaluatie mogelijk: gebruikers beschrijven een gewenste capaciteit in natuurlijke taal en krijgen op verzoek een geverifieerde omgeving, waardoor evaluatie verandert in een continu, gebruikersgestuurd proces. Hetzelfde mechanisme dient als een generator van trainingsomgevingen op aanvraag, die taakverdelingen produceert die zich aanpassen aan de huidige zwaktes van een agent in plaats van beperkt te worden door bestaande gebruikerslogboeken.
English
Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.
PDF181April 22, 2026