CLI-Gym: Generazione Scalabile di Task CLI tramite Inversione Agente dell'Ambiente

Abstract

La codifica agentiva richiede che gli agenti interagiscano efficacemente con ambienti di runtime, ad esempio interfacce a riga di comando (CLI), per completare attività come la risoluzione di problemi di dipendenza, la correzione di problemi di sistema, ecc. Tuttavia, rimane poco esplorato come ottenere su larga scala tali compiti ad alta intensità ambientale per potenziare le capacità degli agenti. Per affrontare ciò, basandoci su un'analogia tra il Dockerfile e il compito agentivo, proponiamo di impiegare agenti per simulare ed esplorare le cronologie degli ambienti, guidati dal feedback di esecuzione. Tracciando le cronologie di un ambiente integro, il suo stato può essere invertito a uno precedente con errori di runtime, da cui è possibile derivare un compito impacchettando lo stato difettoso e i relativi messaggi di errore. Con il nostro metodo, denominato CLI-Gym, sono stati derivati un totale di 1.655 compiti ad alta intensità ambientale, rappresentando la più vasta collezione del suo genere. Inoltre, con traiettorie di successo curate, il nostro modello fine-tuned, chiamato LiberCoder, raggiunge miglioramenti assoluti sostanziali di +21,1% (portandosi al 46,1%) su Terminal-Bench, superando varie baseline solide. A nostra conoscenza, questa è la prima pipeline pubblica per la derivazione scalabile di compiti ad alta intensità ambientale.

English

Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.

CLI-Gym: Generazione Scalabile di Task CLI tramite Inversione Agente dell'Ambiente

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Abstract

Support