TermiGen: Síntesis de Entornos de Alta Fidelidad y Trayectorias Robustas para Agentes Terminales

Resumen

La ejecución de tareas complejas en terminal sigue siendo un desafío significativo para los LLM de pesos abiertos, limitada por dos restricciones fundamentales. En primer lugar, los entornos de entrenamiento ejecutables y de alta fidelidad son escasos: los entornos sintetizados a partir de repositorios del mundo real carecen de diversidad y escalabilidad, mientras que las trayectorias sintetizadas por LLM adolecen de alucinaciones. En segundo lugar, el ajuste por instrucción estándar utiliza trayectorias expertas que rara vez exhiben los errores simples comunes en modelos más pequeños. Esto crea un desajuste distribucional, dejando a los modelos estudiantes mal equipados para recuperarse de sus propios fallos en tiempo de ejecución. Para salvar estas brechas, presentamos TermiGen, un pipeline integral para sintetizar entornos verificables y trayectorias expertas resilientes. TermiGen genera primero tareas funcionalmente válidas y contenedores Docker mediante un bucle iterativo de refinamiento multi-agente. Posteriormente, empleamos un protocolo Generador-Crítico que inyecta errores activamente durante la recolección de trayectorias, sintetizando datos ricos en ciclos de corrección de errores. Ajustado fino sobre este conjunto de datos generado por TermiGen, nuestro TermiGen-Qwen2.5-Coder-32B alcanza una tasa de aprobación del 31.3% en TerminalBench. Esto establece un nuevo estado del arte en modelos de pesos abiertos, superando a los baselines existentes y sobrepasando notablemente a modelos propietarios capaces como o4-mini. El conjunto de datos está disponible en https://github.com/ucsb-mlsec/terminal-bench-env.

English

Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.

TermiGen: Síntesis de Entornos de Alta Fidelidad y Trayectorias Robustas para Agentes Terminales

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

Resumen

Support