ChatPaper.aiChatPaper

ClawEnvKit: Automatische Umgebungserstellung für klauenartige Agenten

ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

April 20, 2026
Autoren: Xirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou
cs.AI

Zusammenfassung

Die Erstellung von Umgebungen zum Training und zur Evaluierung von Greifagenten bleibt ein manueller, personalintensiver Prozess, der nicht skalierbar ist. Wir sind der Ansicht, dass nicht nur ein Datensatz, sondern eine automatisierte Pipeline benötigt wird, die in der Lage ist, auf Abruf diverse, verifizierte Umgebungen zu generieren. Zu diesem Zweck stellen wir ClawEnvKit vor, eine autonome Generierungspipeline, die diesen Formalismus aus natürlichen Sprachbeschreibungen instanziiert. Die Pipeline besteht aus drei Modulen: (1) einem Parser, der strukturierte Generierungsparameter aus natürlicher Spracheingabe extrahiert; (2) einem Generator, der die Aufgabenspezifikation, die Werkzeugschnittstelle und die Bewertungskonfiguration erzeugt; und (3) einem Validierer, der Machbarkeit, Vielfalt, strukturelle Validität und interne Konsistenz über die generierten Umgebungen hinweg durchsetzt. Mit ClawEnvKit konstruieren wir Auto-ClawEval, den ersten großflächigen Benchmark für Greifagenten, der 1.040 Umgebungen in 24 Kategorien umfasst. Empirisch erreicht Auto-ClawEval bei Kohärenz und Klarheit menschenkuratierte Umgebungen oder übertrifft sie, bei 13.800-fach geringeren Kosten. Ausgewertet über 4 Modellfamilien und 8 Agenten-Frameworks zeigen wir, dass Framework-Engineering die Leistung um bis zu 15,7 Prozentpunkte gegenüber einer reinen ReAct-Basislinie steigert, die Vollständigkeit die primäre Variationsachse bleibt – ohne dass ein Modell den Benchmark sättigt – und die automatisierte Generierung eine Evaluierung in bisher unmöglichem Maßstab ermöglicht. Über statisches Benchmarking hinaus ermöglicht ClawEnvKit Live-Evaluierung: Benutzer beschreiben eine gewünschte Fähigkeit in natürlicher Sprache und erhalten auf Abruf eine verifizierte Umgebung, was die Evaluierung zu einem kontinuierlichen, benutzergetriebenen Prozess macht. Derselbe Mechanismus dient als Generator für Trainingsumgebungen auf Abruf, der Aufgabenverteilungen erzeugt, die sich an den aktuellen Schwächen eines Agenten orientieren, anstatt durch bestehende Benutzerprotokolle begrenzt zu sein.
English
Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.
PDF181April 22, 2026