CLI-Gym: Schaalbare CLI-taakgeneratie via agentische omgevingsinversie

Samenvatting

Agent-gebaseerd programmeren vereist dat agents effectief kunnen interacteren met runtime-omgevingen, zoals commandoregelinterfaces (CLI), om taken uit te voeren zoals het oplossen van afhankelijkheidsproblemen of het repareren van systeemproblemen. Het blijft echter onderbelicht hoe dergelijke omgevingsintensieve taken op grote schaal verkregen kunnen worden om de capaciteiten van agents te verbeteren. Om dit aan te pakken, stellen we op basis van een analogie tussen de Dockerfile en de agent-taak voor om agents in te zetten om omgevingsgeschiedenissen te simuleren en te verkennen, geleid door uitvoeringsfeedback. Door de geschiedenis van een gezonde omgeving te traceren, kan de staat ervan worden teruggedraaid naar een eerdere staat met runtime-fouten, waaruit een taak kan worden afgeleid door de buggy staat en de bijbehorende foutmeldingen te verpakken. Met onze methode, genaamd CLI-Gym, zijn in totaal 1.655 omgevingsintensieve taken afgeleid, wat de grootste verzameling in zijn soort is. Bovendien behaalt ons gefinetunede model, genaamd LiberCoder, met gecureerde succesvolle trajecten aanzienlijke absolute verbeteringen van +21,1% (tot 46,1%) op Terminal-Bench, wat verschillende sterke baseline-modellen overtreft. Voor zover wij weten, is dit de eerste openbare pijplijn voor schaalbare afleiding van omgevingsintensieve taken.

English

Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.

CLI-Gym: Schaalbare CLI-taakgeneratie via agentische omgevingsinversie

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Samenvatting

Support