CLI-Gym: Skalierbare Generierung von CLI-Aufgaben durch agentenbasierte Umgebungsinversion
CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion
February 11, 2026
papers.authors: Yusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan, Sanyuan Zhao, Dandan Tu
cs.AI
papers.abstract
Agentisches Programmieren erfordert, dass Agenten effektiv mit Laufzeitumgebungen interagieren, z. B. mit Kommandozeilenschnittstellen (CLI), um Aufgaben wie die Lösung von Abhängigkeitsproblemen oder die Behebung von Systemfehlern zu bewältigen. Es ist jedoch noch weitgehend unerforscht, wie solche umgebungsintensiven Aufgaben in großem Maßstab gewonnen werden können, um die Fähigkeiten von Agenten zu erweitern. Um dieses Problem zu adressieren, schlagen wir auf der Grundlage einer Analogie zwischen Dockerfile und agentischer Aufgabe vor, Agenten einzusetzen, um Umgebungsverläufe anhand von Ausführungsrückmeldungen zu simulieren und zu erkunden. Durch die Nachverfolgung der Historie einer intakten Umgebung kann deren Zustand in einen früheren mit Laufzeitfehlern invertiert werden. Daraus lässt sich eine Aufgabe ableiten, indem der fehlerhafte Zustand und die entsprechenden Fehlermeldungen zusammengefasst werden. Mit unserer Methode, genannt CLI-Gym, wurden insgesamt 1.655 umgebungsintensive Aufgaben abgeleitet, was die größte Sammlung dieser Art darstellt. Darüber hinaus erzielt unser feinabgestimmtes Modell, LiberCoder, durch kuratierte erfolgreiche Trajektorien eine deutliche absolute Verbesserung von +21,1 % (auf 46,1 %) im Terminal-Bench und übertrifft damit verschiedene starke Baseline-Modelle. Unseres Wissens ist dies die erste öffentliche Pipeline zur skalierbaren Ableitung umgebungsintensiver Aufgaben.
English
Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.