LiteCoder-Terminal: Ampliación de entornos de terminal de horizonte largo para el aprendizaje de agentes de lenguaje

Resumen

Dominar entornos de terminal requiere agentes de lenguaje capaces de planificación en múltiples pasos, ejecución basada en retroalimentación y adaptación dinámica al estado. Sin embargo, el entrenamiento de dichos agentes actualmente está limitado por la dependencia de repositorios externos extraídos, lo que restringe la diversidad de dominios, la controlabilidad del entorno y la focalización en déficits de capacidades específicas. Presentamos LiteCoder-Terminal-Gen, un pipeline de síntesis sin dependencias que genera automáticamente entornos de entrenamiento de terminal ejecutables y verificables directamente a partir de especificaciones de dominio. Usando este marco, construimos dos recursos a gran escala: LiteCoder-Terminal-SFT, que comprende 11.255 trayectorias de expertos en 10 dominios, y LiteCoder-Terminal-RL, con 602 entornos verificables para optimización de preferencias a nivel de trayectoria. El ajuste fino supervisado de modelos de la familia Qwen en nuestro conjunto de datos SFT produce agentes que superan significativamente a sus contrapartes base. En particular, nuestra variante de 32B logra un 29,06%, 18,54% y 34,00% de pass@1 en Terminal Bench 1.0, 2.0 y Pro, respectivamente. Además, la aplicación de Optimización Directa de Preferencias en Múltiples Turnos (DMPO) en nuestros entornos RL produce ganancias adicionales de rendimiento. Estos resultados demuestran sistemáticamente que los entornos completamente sintéticos y ejecutables ofrecen una señal de supervisión escalable y verificable para dominar flujos de trabajo complejos del mundo real en línea de comandos.

English

Mastering terminal environments requires language agents capable of multi-step planning, feedback-grounded execution, and dynamic state adaptation. However, training such agents is currently bottlenecked by a reliance on scraped external repositories, which limits domain diversity, environment controllability, and the targeting of specific capability deficits. We introduce LiteCoder-Terminal-Gen, a zero-dependency synthesis pipeline that autonomously generates executable and verifiable terminal training environments directly from domain specifications. Using this framework, we construct two large-scale resources: LiteCoder-Terminal-SFT, comprising 11,255 expert trajectories across 10 domains, and LiteCoder-Terminal-RL, featuring 602 verifiable environments for trajectory-level preference optimization. Supervised fine-tuning of Qwen-family models on our SFT dataset yields agents that significantly outperform their base counterparts. Notably, our 32B variant achieves 29.06%, 18.54%, and 34.00% pass@1 on Terminal Bench 1.0, 2.0, and Pro, respectively. Furthermore, applying Direct Multi-turn Preference Optimization (DMPO) on our RL environments yields additional performance gains. These results systematically demonstrate that fully synthetic, executable environments offer a scalable and verifiable supervision signal for mastering complex, real-world command-line workflows.