LiteCoder-Terminal : Mise à l'échelle d'environnements terminaux à long horizon pour l'apprentissage d'agents linguistiques

Résumé

Maîtriser les environnements de terminal nécessite des agents linguistiques capables de planification multi-étapes, d'exécution basée sur le feedback et d'adaptation dynamique de l'état. Cependant, l'entraînement de tels agents est actuellement limité par une dépendance à des dépôts externes collectés par extraction, ce qui restreint la diversité des domaines, la contrôlabilité des environnements et le ciblage de déficits de capacités spécifiques. Nous présentons LiteCoder-Terminal-Gen, un pipeline de synthèse sans dépendance qui génère de manière autonome des environnements d'entraînement de terminal exécutables et vérifiables directement à partir de spécifications de domaine. À l'aide de ce cadre, nous construisons deux ressources à grande échelle : LiteCoder-Terminal-SFT, comprenant 11 255 trajectoires expertes couvrant 10 domaines, et LiteCoder-Terminal-RL, proposant 602 environnements vérifiables pour l'optimisation des préférences au niveau des trajectoires. Le réglage fin supervisé des modèles de la famille Qwen sur notre jeu de données SFT produit des agents qui surpassent significativement leurs homologues de base. Notamment, notre variante 32B atteint un taux pass@1 de 29,06 %, 18,54 % et 34,00 % sur Terminal Bench 1.0, 2.0 et Pro, respectivement. De plus, l'application de l'Optimisation Directe des Préférences Multi-Tours (DMPO) sur nos environnements RL génère des gains de performance supplémentaires. Ces résultats démontrent systématiquement que des environnements d'exécution entièrement synthétiques offrent un signal de supervision vérifiable et évolutif pour maîtriser des workflows complexes en ligne de commande dans des conditions réelles.

English

Mastering terminal environments requires language agents capable of multi-step planning, feedback-grounded execution, and dynamic state adaptation. However, training such agents is currently bottlenecked by a reliance on scraped external repositories, which limits domain diversity, environment controllability, and the targeting of specific capability deficits. We introduce LiteCoder-Terminal-Gen, a zero-dependency synthesis pipeline that autonomously generates executable and verifiable terminal training environments directly from domain specifications. Using this framework, we construct two large-scale resources: LiteCoder-Terminal-SFT, comprising 11,255 expert trajectories across 10 domains, and LiteCoder-Terminal-RL, featuring 602 verifiable environments for trajectory-level preference optimization. Supervised fine-tuning of Qwen-family models on our SFT dataset yields agents that significantly outperform their base counterparts. Notably, our 32B variant achieves 29.06%, 18.54%, and 34.00% pass@1 on Terminal Bench 1.0, 2.0, and Pro, respectively. Furthermore, applying Direct Multi-turn Preference Optimization (DMPO) on our RL environments yields additional performance gains. These results systematically demonstrate that fully synthetic, executable environments offer a scalable and verifiable supervision signal for mastering complex, real-world command-line workflows.