TermiGen: Hoogwaardige Omgeving en Robuuste Trajectoriesynthese voor Terminale Agenten

Samenvatting

Het uitvoeren van complexe terminaltaken blijft een grote uitdaging voor open-weight LLM's, beperkt door twee fundamentele tekortkomingen. Ten eerste zijn hoogwaardige, uitvoerbare trainingsomgevingen schaars: omgevingen gesynthetiseerd uit real-world repositories zijn niet divers en schaalbaar, terwijl trajecten gesynthetiseerd door LLM's lijden onder hallucinaties. Ten tweede gebruikt standaard instruction tuning expert-trajecten die zelden de eenvoudige fouten vertonen die veelvoorkomend zijn bij kleinere modellen. Dit creëert een distributionele mismatch, waardoor studentmodellen niet toegerust zijn om te herstellen van hun eigen runtime-fouten. Om deze kloof te overbruggen, introduceren we TermiGen, een end-to-end pijplijn voor het synthetiseren van verifieerbare omgevingen en veerkrachtige expert-trajecten. TermiGen genereert eerst functioneel valide taken en Docker-containers via een iteratieve multi-agent verfijningslus. Vervolgens gebruiken we een Generator-Critic-protocol dat actief fouten injecteert tijdens trajectverzameling, waardoor data wordt gesynthetiseerd die rijk is aan foutcorrectiecycli. Gefinetuned op deze door TermiGen gegenereerde dataset, behaalt onze TermiGen-Qwen2.5-Coder-32B een slaagpercentage van 31,3% op TerminalBench. Dit vestigt een nieuwe state-of-the-art voor open-weights modellen, presteert beter dan bestaande baseline-modellen en overtreft zelfs capabele propriëtaire modellen zoals o4-mini. De dataset is beschikbaar op https://github.com/ucsb-mlsec/terminal-bench-env.

English

Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.

TermiGen: Hoogwaardige Omgeving en Robuuste Trajectoriesynthese voor Terminale Agenten

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

Samenvatting

Support