TermiGen: Hochwertige Umgebungssynthese und robuste Trajektoriengenerierung für Terminal-Agenten

papers.abstract

Die Ausführung komplexer Terminalaufgaben bleibt eine erhebliche Herausforderung für Open-Weight-LLMs, die durch zwei grundlegende Einschränkungen beeinträchtigt wird. Erstens sind hochwertige, ausführbare Trainingsumgebungen rar: Aus realen Repositories synthetisierte Umgebungen sind nicht vielfältig und skalierbar genug, während von LLMs generierte Trajektorien unter Halluzinationen leiden. Zweitens nutzt standardmäßiges Instruction Tuning Expertentrajektorien, die selten einfache Fehler aufweisen, die bei kleineren Modellen häufig vorkommen. Dies führt zu einer Verteilungsdiskordanz, die Studentenmodelle unzureichend auf die Bewältigung eigener Laufzeitfehler vorbereitet. Um diese Lücken zu schließen, stellen wir TermiGen vor, eine End-to-End-Pipeline zur Synthese verifizierbarer Umgebungen und robuster Expertentrajektorien. TermiGen generiert zunächst funktional valide Aufgaben und Docker-Container über eine iterative Multi-Agenten-Verfehlerungsschleife. Anschließend setzen wir ein Generator-Critic-Protokoll ein, das aktiv Fehler während der Trajektoriensammlung injiziert und so Daten mit vielen Fehlerkorrekturzyklen synthetisiert. Auf diesem TermiGen-generierten Datensatz feintuning-optimiert, erzielt unser TermiGen-Qwen2.5-Coder-32B eine Passrate von 31,3 % auf TerminalBench. Dies etabliert einen neuen State-of-the-Art für Open-Weight-Modelle, übertrifft bestehende Baselines und überholt bemerkenswerterweise leistungsfähige proprietäre Modelle wie o4-mini. Der Datensatz ist verfügbar unter https://github.com/ucsb-mlsec/terminal-bench-env.

English

Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.

TermiGen: Hochwertige Umgebungssynthese und robuste Trajektoriengenerierung für Terminal-Agenten

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

papers.abstract

Support