ClawEnvKit: Автоматическая генерация окружения для когтеобразных агентов
ClawEnvKit: Automatic Environment Generation for Claw-Like Agents
April 20, 2026
Авторы: Xirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou
cs.AI
Аннотация
Создание сред для обучения и оценки когтеподобных агентов остается ручным, трудоемким процессом, который плохо масштабируется. Мы утверждаем, что необходима не просто набор данных, а автоматизированный конвейер, способный генерировать разнообразные, верифицированные среды по требованию. Для этой цели мы представляем ClawEnvKit — автономный конвейер генерации, который реализует данный формализм из описаний на естественном языке. Конвейер состоит из трех модулей: (1) парсера, извлекающего структурированные параметры генерации из входных данных на естественном языке; (2) генератора, создающего спецификацию задачи, интерфейс инструмента и конфигурацию оценки; и (3) валидатора, обеспечивающего выполнимость, разнообразие, структурную корректность и внутреннюю согласованность генерируемых сред. С помощью ClawEnvKit мы создали Auto-ClawEval — первый крупномасштабный бенчмарк для когтеподобных агентов, содержащий 1040 сред в 24 категориях. Экспериментально показано, что Auto-ClawEval соответствует или превосходит среды, созданные человеком, по связности и ясности при стоимости в 13 800 раз ниже. При оценке на 4 семействах моделей и 8 платформах для запуска агентов мы обнаружили, что инженерия обвязки повышает производительность до 15.7 процентных пунктов по сравнению с базовым ReAct, завершение остается основной осью вариативности без насыщения бенчмарка ни одной моделью, а автоматизированная генерация позволяет проводить оценку в ранее недостижимых масштабах. Помимо статического бенчмаркинга, ClawEnvKit обеспечивает динамическую оценку: пользователи описывают желаемую возможность на естественном языке и получают верифицированную среду по требованию, превращая оценку в непрерывный пользовательско-управляемый процесс. Этот же механизм служит генератором учебных сред по требованию, создавая распределения задач, которые адаптируются к текущим слабостям агента, а не ограничиваются существующими пользовательскими логами.
English
Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.