ChatPaper.aiChatPaper

ClawEnvKit: Generación Automática de Entornos para Agentes Tipo Garra

ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

April 20, 2026
Autores: Xirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou
cs.AI

Resumen

La construcción de entornos para entrenar y evaluar agentes tipo garra sigue siendo un proceso manual e intensivo en recursos humanos que no es escalable. Sostenemos que lo que se necesita no es solo un conjunto de datos, sino una canalización automatizada capaz de generar entornos diversos y verificados bajo demanda. Con este fin, presentamos ClawEnvKit, una canalización de generación autónoma que materializa este formalismo a partir de descripciones en lenguaje natural. La canalización consta de tres módulos: (1) un analizador que extrae parámetros estructurados de generación a partir de una entrada en lenguaje natural; (2) un generador que produce la especificación de la tarea, la interfaz de herramientas y la configuración de puntuación; y (3) un validador que aplica la factibilidad, diversidad, validez estructural y coherencia interna en todos los entornos generados. Utilizando ClawEnvKit, construimos Auto-ClawEval, el primer punto de referencia a gran escala para agentes tipo garra, que comprende 1.040 entornos en 24 categorías. Empíricamente, Auto-ClawEval iguala o supera a los entornos curados por humanos en coherencia y claridad con un costo 13.800 veces menor. Evaluado en 4 familias de modelos y 8 marcos de trabajo de agentes, encontramos que la ingeniería de arneses aumenta el rendimiento hasta en 15,7 puntos porcentuales sobre una línea base ReAct básica, la finalización sigue siendo el eje principal de variación sin que ningún modelo sature el benchmark, y la generación automatizada permite la evaluación a una escala antes inviable. Más allá de la evaluación estática, ClawEnvKit permite la evaluación en vivo: los usuarios describen una capacidad deseada en lenguaje natural y obtienen un entorno verificado bajo demanda, convirtiendo la evaluación en un proceso continuo y dirigido por el usuario. El mismo mecanismo sirve como un generador de entornos de entrenamiento bajo demanda, produciendo distribuciones de tareas que se adaptan a las debilidades actuales de un agente en lugar de estar limitadas por los registros de usuario existentes.
English
Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.
PDF181April 22, 2026