LiteCoder-Terminal: Skalierung von Langzeit-Terminal-Umgebungen für das Lernen von Sprachagenten

Zusammenfassung

Die Beherrschung von Terminalumgebungen erfordert Sprachagenten, die zu mehrschrittiger Planung, feedbackgestützter Ausführung und dynamischer Zustandsanpassung fähig sind. Das Training solcher Agenten wird derzeit jedoch durch die Abhängigkeit von gescrapten externen Repositories eingeschränkt, was die Domänenvielfalt, die Kontrollierbarkeit der Umgebung und die gezielte Behebung spezifischer Fähigkeitsdefizite limitiert. Wir stellen LiteCoder-Terminal-Gen vor, eine null-Abhängigkeits-Synthesepipeline, die autonom ausführbare und verifizierbare Terminal-Trainingsumgebungen direkt aus Domänenspezifikationen generiert. Mit diesem Framework erstellen wir zwei großskalige Ressourcen: LiteCoder-Terminal-SFT, bestehend aus 11.255 Experten-Trajektorien aus 10 Domänen, und LiteCoder-Terminal-RL mit 602 verifizierbaren Umgebungen zur Präferenzoptimierung auf Trajektorienebene. Überwachtes Feintuning von Modellen der Qwen-Familie auf unserem SFT-Datensatz ergibt Agenten, die ihre Basisvarianten deutlich übertreffen. Insbesondere erreicht unsere 32B-Variante 29,06 %, 18,54 % bzw. 34,00 % pass@1 auf Terminal Bench 1.0, 2.0 und Pro. Darüber hinaus führt die Anwendung der Direkten Multi-Turn-Präferenzoptimierung (DMPO) auf unseren RL-Umgebungen zu weiteren Leistungssteigerungen. Diese Ergebnisse zeigen systematisch, dass vollständig synthetische, ausführbare Umgebungen ein skalierbares und verifizierbares Überwachungssignal für die Beherrschung komplexer, realer Kommandozeilen-Workflows bieten.

English

Mastering terminal environments requires language agents capable of multi-step planning, feedback-grounded execution, and dynamic state adaptation. However, training such agents is currently bottlenecked by a reliance on scraped external repositories, which limits domain diversity, environment controllability, and the targeting of specific capability deficits. We introduce LiteCoder-Terminal-Gen, a zero-dependency synthesis pipeline that autonomously generates executable and verifiable terminal training environments directly from domain specifications. Using this framework, we construct two large-scale resources: LiteCoder-Terminal-SFT, comprising 11,255 expert trajectories across 10 domains, and LiteCoder-Terminal-RL, featuring 602 verifiable environments for trajectory-level preference optimization. Supervised fine-tuning of Qwen-family models on our SFT dataset yields agents that significantly outperform their base counterparts. Notably, our 32B variant achieves 29.06%, 18.54%, and 34.00% pass@1 on Terminal Bench 1.0, 2.0, and Pro, respectively. Furthermore, applying Direct Multi-turn Preference Optimization (DMPO) on our RL environments yields additional performance gains. These results systematically demonstrate that fully synthetic, executable environments offer a scalable and verifiable supervision signal for mastering complex, real-world command-line workflows.