CLI-Gym: Generación Escalable de Tareas CLI mediante Inversión de Entorno Agéntico

Resumen

La codificación agéntica requiere que los agentes interactúen eficazmente con entornos de ejecución, como las interfaces de línea de comandos (CLI), para completar tareas como resolver problemas de dependencias, solucionar fallos del sistema, etc. Sin embargo, aún está poco explorado cómo obtener a gran escala este tipo de tareas intensivas en entorno para mejorar las capacidades de los agentes. Para abordarlo, basándonos en una analogía entre el Dockerfile y la tarea agéntica, proponemos emplear agentes para simular y explorar historiales de entorno, guiados por retroalimentación de ejecución. Al rastrear los historiales de un entorno saludable, su estado puede invertirse a uno anterior con fallos de ejecución, a partir del cual se puede derivar una tarea empaquetando el estado con errores y los mensajes de error correspondientes. Con nuestro método, denominado CLI-Gym, se han derivado un total de 1.655 tareas intensivas en entorno, constituyendo la colección más grande de su tipo. Además, con trayectorias exitosas curadas, nuestro modelo fine-tuned, llamado LiberCoder, logra mejoras absolutas sustanciales de +21.1% (alcanzando 46.1%) en Terminal-Bench, superando a varias líneas base sólidas. Hasta donde sabemos, este es el primer pipeline público para la derivación escalable de tareas intensivas en entorno.

English

Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.

CLI-Gym: Generación Escalable de Tareas CLI mediante Inversión de Entorno Agéntico

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Resumen

Support