CLI-Gym: Geração Escalável de Tarefas de CLI via Inversão de Ambiente Agêntica

Resumo

A codificação agentiva requer que os agentes interajam eficazmente com ambientes de execução, por exemplo, interfaces de linha de comandos (CLI), para completar tarefas como resolver problemas de dependências, corrigir problemas do sistema, etc. No entanto, continua pouco explorado como essas tarefas intensivas em ambiente podem ser obtidas em escala para melhorar as capacidades dos agentes. Para resolver isso, com base numa analogia entre o Dockerfile e a tarefa agentiva, propomos empregar agentes para simular e explorar históricos de ambiente, orientados por *feedback* de execução. Ao rastrear os históricos de um ambiente saudável, o seu estado pode ser invertido para um anterior com falhas de execução, a partir do qual uma tarefa pode ser derivada através do empacotamento do estado com *bugs* e das mensagens de erro correspondentes. Com o nosso método, denominado CLI-Gym, foram derivadas um total de 1.655 tarefas intensivas em ambiente, constituindo a maior coleção do género. Além disso, com trajetórias de sucesso curadas, o nosso modelo afinado, denominado LiberCoder, alcança melhorias absolutas substanciais de +21,1% (para 46,1%) no Terminal-Bench, superando várias *baselines* robustas. Até onde sabemos, este é o primeiro *pipeline* público para derivação escalável de tarefas intensivas em ambiente.

English

Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.

CLI-Gym: Geração Escalável de Tarefas de CLI via Inversão de Ambiente Agêntica

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Resumo

Support