TermiGen: Синтез высокоточных сред и робастных траекторий для терминальных агентов

Аннотация

Выполнение сложных терминальных задач остается серьезной проблемой для открытых больших языковых моделей (LLM), что обусловлено двумя фундаментальными ограничениями. Во-первых, высокоточные исполняемые среды для обучения дефицитны: среды, синтезированные из реальных репозиториев, не отличаются разнообразием и масштабируемостью, в то время как траектории, сгенерированные LLM, страдают от галлюцинаций. Во-вторых, стандартная настройка по инструкциям использует экспертные траектории, которые редко содержат простые ошибки, характерные для меньших моделей. Это создает дисбаланс распределений, оставляя студенческие модели плохо подготовленными к исправлению собственных ошибок времени выполнения. Для преодоления этих пробелов мы представляем TermiGen — сквозной конвейер для синтеза проверяемых сред и устойчивых экспертных траекторий. TermiGen сначала генерирует функционально валидные задачи и Docker-контейнеры с помощью итеративного цикла уточнения с участием нескольких агентов. Затем мы применяем протокол «Генератор-Критик», который активно внедряет ошибки в процессе сбора траекторий, синтезируя данные, богатые циклами исправления ошибок. После дообучения на этом наборе данных, сгенерированном TermiGen, наша модель TermiGen-Qwen2.5-Coder-32B достигает показателя успешности 31.3% на TerminalBench. Это устанавливает новый рекорд для открытых моделей, превосходя существующие базовые уровни и значительно опережая такие мощные проприетарные модели, как o4-mini. Набор данных доступен по адресу https://github.com/ucsb-mlsec/terminal-bench-env.

English

Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.

TermiGen: Синтез высокоточных сред и робастных траекторий для терминальных агентов

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

Аннотация

Support