TermiGen: Sintesi di Ambienti ad Alta Fedeltà e Traiettorie Robuste per Agenti Terminali

Abstract

L'esecuzione di compiti complessi da terminale rimane una sfida significativa per i LLM open-weight, limitata da due vincoli fondamentali. In primo luogo, ambienti di training ad alta fedeltà ed eseguibili sono scarsi: gli ambienti sintetizzati da repository reali non sono diversificati e scalabili, mentre le traiettorie sintetizzate da LLM soffrono di allucinazioni. In secondo luogo, la standard instruction tuning utilizza traiettorie esperte che raramente presentano gli errori semplici comuni ai modelli più piccoli. Ciò crea una discrepanza distributiva, lasciando i modelli studente impreparati a recuperare dai propri errori a runtime. Per colmare queste lacune, introduciamo TermiGen, una pipeline end-to-end per sintetizzare ambienti verificabili e traiettorie esperte resilienti. TermiGen genera prima compiti funzionalmente validi e container Docker attraverso un ciclo iterativo di raffinamento multi-agente. Successivamente, impieghiamo un protocollo Generatore-Critico che inietta attivamente errori durante la raccolta delle traiettorie, sintetizzando dati ricchi di cicli di correzione degli errori. Addestrato su questo dataset generato da TermiGen, il nostro TermiGen-Qwen2.5-Coder-32B raggiunge un tasso di successo del 31.3% su TerminalBench. Questo stabilisce un nuovo state-of-the-art per i modelli open-weight, superando i baseline esistenti e superando significativamente modelli proprietari capaci come o4-mini. Il dataset è disponibile all'indirizzo https://github.com/ucsb-mlsec/terminal-bench-env.

English

Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.

TermiGen: Sintesi di Ambienti ad Alta Fedeltà e Traiettorie Robuste per Agenti Terminali

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

Abstract

Support