TermiGen: Síntese de Ambiente de Alta Fidelidade e Trajetória Robusta para Agentes Terminais

Resumo

A execução de tarefas complexas no terminal continua a ser um desafio significativo para os LLMs de pesos abertos, limitada por duas restrições fundamentais. Primeiro, ambientes de treino executáveis e de alta fidelidade são escassos: ambientes sintetizados a partir de repositórios do mundo real não são diversificados e escaláveis, enquanto as trajetórias sintetizadas por LLMs sofrem de alucinações. Segundo, o *fine-tuning* padrão por instrução utiliza trajetórias de especialistas que raramente exibem os erros simples comuns a modelos menores. Isto cria um desajuste distribucional, deixando os modelos estudantes mal preparados para recuperar das suas próprias falhas em tempo de execução. Para colmatar estas lacunas, introduzimos o TermiGen, um *pipeline* de ponta a ponta para sintetizar ambientes verificáveis e trajetórias de especialista resilientes. O TermiGen gera primeiro tarefas funcionalmente válidas e contentores Docker através de um ciclo iterativo de refinamento multiagente. Subsequentemente, empregamos um protocolo Gerador-Crítico que injeta ativamente erros durante a recolha de trajetórias, sintetizando dados ricos em ciclos de correção de erros. Após *fine-tuning* com este conjunto de dados gerado pelo TermiGen, o nosso TermiGen-Qwen2.5-Coder-32B atinge uma taxa de sucesso de 31,3% no TerminalBench. Isto estabelece um novo estado da arte para modelos de pesos abertos, superando os *baselines* existentes e ultrapassando notavelmente modelos proprietários capazes, como o o4-mini. O conjunto de dados está disponível em https://github.com/ucsb-mlsec/terminal-bench-env.

English

Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.

TermiGen: Síntese de Ambiente de Alta Fidelidade e Trajetória Robusta para Agentes Terminais

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

Resumo

Support