ChatPaper.aiChatPaper

ClawEnvKit : Génération Automatique d'Environnements pour Agents de Type Pince

ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

April 20, 2026
Auteurs: Xirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou
cs.AI

Résumé

La construction d'environnements pour l'entraînement et l'évaluation d'agents de type "griffe" reste un processus manuel, très consommateur de ressources humaines et qui ne passe pas à l'échelle. Nous soutenons que ce qui est nécessaire n'est pas seulement un jeu de données, mais un pipeline automatisé capable de générer à la demande des environnements diversifiés et vérifiés. Dans cette optique, nous présentons ClawEnvKit, un pipeline de génération autonome qui matérialise ce formalisme à partir de descriptions en langage naturel. Le pipeline comprend trois modules : (1) un analyseur qui extrait des paramètres de génération structurés depuis une entrée en langage naturel ; (2) un générateur qui produit la spécification de la tâche, l'interface d'outil et la configuration de notation ; et (3) un validateur qui impose la faisabilité, la diversité, la validité structurelle et la cohérence interne parmi les environnements générés. En utilisant ClawEnvKit, nous construisons Auto-ClawEval, le premier benchmark à grande échelle pour agents de type griffe, comprenant 1 040 environnements répartis en 24 catégories. Empiriquement, Auto-ClawEval égale ou dépasse les environnements créés manuellement en termes de cohérence et de clarté, pour un coût 13 800 fois inférieur. Évalué sur 4 familles de modèles et 8 frameworks d'exécution d'agents, nous constatons que l'ingénierie des *harness* améliore les performances jusqu'à 15,7 points de pourcentage par rapport à une ligne de base ReAct nue, que le taux de réussite reste le principal axe de variation sans qu'aucun modèle ne sature le benchmark, et que la génération automatisée permet une évaluation à une échelle jusque-là irréalisable. Au-delà du benchmarking statique, ClawEnvKit permet l'évaluation en temps réel : les utilisateurs décrivent une capacité souhaitée en langage naturel et obtiennent un environnement vérifié à la demande, transformant l'évaluation en un processus continu et piloté par l'utilisateur. Le même mécanisme sert de générateur d'environnements d'entraînement à la demande, produisant des distributions de tâches qui s'adaptent aux faiblesses actuelles d'un agent plutôt que d'être limitées par les journaux d'utilisation existants.
English
Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.
PDF181April 22, 2026