TermiGen : Synthèse haute fidélité d'environnements et de trajectoires robustes pour les agents en phase terminale

papers.abstract

L'exécution de tâches complexes en terminal reste un défi majeur pour les LLMs open-weight, entravée par deux limitations fondamentales. Premièrement, les environnements d'entraînement exécutables et de haute fidélité sont rares : les environnements synthétisés à partir de dépôts réels manquent de diversité et d'évolutivité, tandis que les trajectoires générées par les LLMs souffrent d'hallucinations. Deuxièmement, le réglage par instruction standard utilise des trajectoires expertes qui présentent rarement les erreurs simples communes aux modèles plus petits. Cela crée un décalage distributionnel, laissant les modèles étudiants mal préparés à récupérer de leurs propres erreurs d'exécution. Pour combler ces lacunes, nous présentons TermiGen, un pipeline de bout en bout pour synthétiser des environnements vérifiables et des trajectoires expertes résilientes. TermiGen génère d'abord des tâches fonctionnellement valides et des conteneurs Docker via une boucle de raffinement multi-agent itérative. Ensuite, nous employons un protocole Générateur-Critique qui injecte activement des erreurs lors de la collecte de trajectoires, synthétisant des données riches en cycles de correction d'erreurs. Fine-tuné sur cet ensemble de données généré par TermiGen, notre TermiGen-Qwen2.5-Coder-32B atteint un taux de réussite de 31,3% sur TerminalBench. Cela établit un nouvel état de l'art pour les modèles open-weight, surpassant les bases de référence existantes et dépassant notablement des modèles propriétaires performants comme o4-mini. Le jeu de données est disponible à l'adresse https://github.com/ucsb-mlsec/terminal-bench-env.

English

Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.

TermiGen : Synthèse haute fidélité d'environnements et de trajectoires robustes pour les agents en phase terminale

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

papers.abstract

Support