Geração de Trajetórias Agênicas em Larga Escala para Terminais a partir de Ambientes Dockerizados

Resumo

A formação de modelos agentes para tarefas baseadas em terminal depende criticamente de trajectórias de terminal de alta qualidade que capturem interacções realistas de longo horizonte em diversos domínios. No entanto, a construção destes dados em escala permanece um desafio devido a dois requisitos fundamentais: \emph{Executabilidade}, uma vez que cada instância requer um ambiente Docker adequado e frequentemente distinto; e \emph{Verificabilidade}, porque os resultados heterogéneos das tarefas impedem uma verificação unificada e padronizada. Para enfrentar estes desafios, propomos o TerminalTraj, um pipeline escalável que (i) filtra repositórios de alta qualidade para construir ambientes de execução Dockerizados, (ii) gera instâncias de tarefas alinhadas com Docker, e (iii) sintetiza trajectórias de agente com código de validação executável. Utilizando o TerminalTraj, reunimos 32K imagens Docker e gerámos 50.733 trajectórias de terminal verificadas em oito domínios. Os modelos treinados com estes dados usando a arquitetura Qwen2.5-Coder alcançam melhorias de desempenho consistentes no TerminalBench (TB), com ganhos de até 20\% no TB~1.0 e 10\% no TB~2.0 em relação às suas arquiteturas base. Notavelmente, o TerminalTraj-32B atinge um desempenho robusto entre modelos com menos de 100B de parâmetros, alcançando 35,30\% no TB~1.0 e 22,00\% no TB~2.0, e demonstra um comportamento de escalagem melhorado em tempo de teste. Todo o código e dados estão disponíveis em https://github.com/Wusiwei0410/TerminalTraj.

English

Training agentic models for terminal-based tasks critically depends on high-quality terminal trajectories that capture realistic long-horizon interactions across diverse domains. However, constructing such data at scale remains challenging due to two key requirements: \emph{Executability}, since each instance requires a suitable and often distinct Docker environment; and \emph{Verifiability}, because heterogeneous task outputs preclude unified, standardized verification. To address these challenges, we propose TerminalTraj, a scalable pipeline that (i) filters high-quality repositories to construct Dockerized execution environments, (ii) generates Docker-aligned task instances, and (iii) synthesizes agent trajectories with executable validation code. Using TerminalTraj, we curate 32K Docker images and generate 50,733 verified terminal trajectories across eight domains. Models trained on this data with the Qwen2.5-Coder backbone achieve consistent performance improvements on TerminalBench (TB), with gains of up to 20\% on TB~1.0 and 10\% on TB~2.0 over their respective backbones. Notably, TerminalTraj-32B achieves strong performance among models with fewer than 100B parameters, reaching 35.30\% on TB~1.0 and 22.00\% on TB~2.0, and demonstrates improved test-time scaling behavior. All code and data are available at https://github.com/Wusiwei0410/TerminalTraj.