CLI-Gym : Génération évolutive de tâches en ligne de commande par inversion d'environnement agentique

papers.abstract

Le codage agentique nécessite que les agents interagissent efficacement avec des environnements d'exécution, tels que les interfaces en ligne de commande (CLI), afin d'accomplir des tâches comme la résolution de problèmes de dépendances ou la correction de dysfonctionnements système. Cependant, la manière d'obtenir à grande échelle de telles tâches intensives en environnement pour renforcer les capacités des agents reste peu explorée. Pour y remédier, en nous appuyant sur une analogie entre le Dockerfile et la tâche agentique, nous proposons d'utiliser des agents pour simuler et explorer des historiques d'environnement, guidés par des retours d'exécution. En retraçant l'historique d'un environnement sain, son état peut être inversé vers un état antérieur présentant des erreurs d'exécution, à partir duquel une tâche peut être dérivée en encapsulant l'état défaillant et les messages d'erreur correspondants. Grâce à notre méthode, nommée CLI-Gym, un total de 1 655 tâches intensives en environnement a été généré, constituant la plus vaste collection de ce type. Par ailleurs, avec des trajectoires de réussite soigneusement sélectionnées, notre modèle fine-tuné, LiberCoder, obtient une amélioration absolue substantielle de +21,1 % (pour atteindre 46,1 %) sur Terminal-Bench, surpassant diverses bases de référence solides. À notre connaissance, il s'agit de la première pipeline publique permettant une dérivation scalable de tâches intensives en environnement.

English

Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.

CLI-Gym : Génération évolutive de tâches en ligne de commande par inversion d'environnement agentique

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

papers.abstract

Support