CLI-Gym: Масштабируемая генерация CLI-задач с помощью агентной инверсии окружения

Аннотация

Агентное программирование требует от агентов эффективного взаимодействия со средами выполнения, такими как интерфейсы командной строки (CLI), для решения задач, включая устранение проблем с зависимостями, исправление системных сбоев и т.д. Однако вопрос масштабируемого получения таких средозависимых задач для повышения возможностей агентов остается малоизученным. Для решения этой проблемы, проводя аналогию между Dockerfile и агентной задачей, мы предлагаем использовать агентов для моделирования и исследования истории сред на основе обратной связи от выполнения. Путем отслеживания истории стабильной среды ее состояние можно инвертировать до более раннего с ошибками выполнения, на основе которого формируется задача путем упаковки проблемного состояния и соответствующих сообщений об ошибках. С помощью нашего метода CLI-Gym получено 1655 средозависимых задач, что представляет собой крупнейшую коллекцию такого рода. Кроме того, с использованием курируемых успешных траекторий наша дообученная модель LiberCoder демонстрирует значительное абсолютное улучшение на +21,1% (до 46,1%) на Terminal-Bench, превосходя различные сильные базовые модели. Насколько нам известно, это первый публичный конвейер для масштабируемого получения средозависимых задач.

English

Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.

CLI-Gym: Масштабируемая генерация CLI-задач с помощью агентной инверсии окружения

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Аннотация

Support