LiteCoder-Terminal: Escalando Ambientes Terminais de Horizonte Longo para o Aprendizado de Agentes de Linguagem

Resumo

Dominar ambientes de terminal exige agentes de linguagem capazes de planejamento em múltiplas etapas, execução baseada em feedback e adaptação dinâmica de estados. No entanto, o treinamento desses agentes atualmente enfrenta um gargalo devido à dependência de repositórios externos extraídos, o que limita a diversidade de domínios, a controlabilidade dos ambientes e o direcionamento de déficits específicos de capacidade. Apresentamos o LiteCoder-Terminal-Gen, um pipeline de síntese sem dependências externas que gera automaticamente ambientes de treinamento de terminal executáveis e verificáveis diretamente a partir de especificações de domínio. Utilizando essa estrutura, construímos dois recursos em larga escala: o LiteCoder-Terminal-SFT, composto por 11.255 trajetórias especializadas em 10 domínios, e o LiteCoder-Terminal-RL, com 602 ambientes verificáveis para otimização de preferências em nível de trajetória. O ajuste fino supervisionado de modelos da família Qwen em nosso conjunto de dados SFT produz agentes que superam significativamente suas contrapartes base. Notavelmente, nossa variante de 32B alcança 29,06%, 18,54% e 34,00% de pass@1 no Terminal Bench 1.0, 2.0 e Pro, respectivamente. Além disso, a aplicação da Otimização Direta de Preferências em Múltiplas Rodadas (DMPO) em nossos ambientes RL resulta em ganhos adicionais de desempenho. Esses resultados demonstram sistematicamente que ambientes executáveis totalmente sintéticos oferecem um sinal de supervisão escalável e verificável para dominar fluxos de trabalho complexos e reais de linha de comando.

English

Mastering terminal environments requires language agents capable of multi-step planning, feedback-grounded execution, and dynamic state adaptation. However, training such agents is currently bottlenecked by a reliance on scraped external repositories, which limits domain diversity, environment controllability, and the targeting of specific capability deficits. We introduce LiteCoder-Terminal-Gen, a zero-dependency synthesis pipeline that autonomously generates executable and verifiable terminal training environments directly from domain specifications. Using this framework, we construct two large-scale resources: LiteCoder-Terminal-SFT, comprising 11,255 expert trajectories across 10 domains, and LiteCoder-Terminal-RL, featuring 602 verifiable environments for trajectory-level preference optimization. Supervised fine-tuning of Qwen-family models on our SFT dataset yields agents that significantly outperform their base counterparts. Notably, our 32B variant achieves 29.06%, 18.54%, and 34.00% pass@1 on Terminal Bench 1.0, 2.0, and Pro, respectively. Furthermore, applying Direct Multi-turn Preference Optimization (DMPO) on our RL environments yields additional performance gains. These results systematically demonstrate that fully synthetic, executable environments offer a scalable and verifiable supervision signal for mastering complex, real-world command-line workflows.