LiteCoder-Terminal: Opschaling van lange-horizon terminalomgevingen voor het leren van taalagenten

Samenvatting

Het beheersen van terminalomgevingen vereist taalagenten die in staat zijn tot meerstappenplanning, op feedback gebaseerde uitvoering en dynamische toestandsaanpassing. De training van dergelijke agenten wordt momenteel echter belemmerd door een afhankelijkheid van geschraapte externe repositories, wat de domeindiversiteit, de omgevingscontroleerbaarheid en het targeten van specifieke capaciteitstekorten beperkt. We introduceren LiteCoder-Terminal-Gen, een nul-afhankelijkheidssynthesepijplijn die autonoom uitvoerbare en verifieerbare terminaltrainingsomgevingen genereert, rechtstreeks op basis van domeinspecificaties. Met dit raamwerk construeren we twee grootschalige bronnen: LiteCoder-Terminal-SFT, bestaande uit 11.255 expert-trajecten in 10 domeinen, en LiteCoder-Terminal-RL, met 602 verifieerbare omgevingen voor trajectniveau-preferentieoptimalisatie. Gesuperviseerd finetunen van modellen uit de Qwen-familie op onze SFT-dataset levert agenten op die hun basis-tegenhangers aanzienlijk overtreffen. Met name onze 32B-variant behaalt respectievelijk 29,06%, 18,54% en 34,00% pass@1 op Terminal Bench 1.0, 2.0 en Pro. Bovendien levert toepassing van Directe Multi-beurt Preferentieoptimalisatie (DMPO) op onze RL-omgevingen extra prestatieverbeteringen op. Deze resultaten tonen systematisch aan dat volledig synthetische, uitvoerbare omgevingen een schaalbaar en verifieerbaar supervisiesignaal bieden voor het beheersen van complexe, real-world commandoregel-workflows.

English

Mastering terminal environments requires language agents capable of multi-step planning, feedback-grounded execution, and dynamic state adaptation. However, training such agents is currently bottlenecked by a reliance on scraped external repositories, which limits domain diversity, environment controllability, and the targeting of specific capability deficits. We introduce LiteCoder-Terminal-Gen, a zero-dependency synthesis pipeline that autonomously generates executable and verifiable terminal training environments directly from domain specifications. Using this framework, we construct two large-scale resources: LiteCoder-Terminal-SFT, comprising 11,255 expert trajectories across 10 domains, and LiteCoder-Terminal-RL, featuring 602 verifiable environments for trajectory-level preference optimization. Supervised fine-tuning of Qwen-family models on our SFT dataset yields agents that significantly outperform their base counterparts. Notably, our 32B variant achieves 29.06%, 18.54%, and 34.00% pass@1 on Terminal Bench 1.0, 2.0, and Pro, respectively. Furthermore, applying Direct Multi-turn Preference Optimization (DMPO) on our RL environments yields additional performance gains. These results systematically demonstrate that fully synthetic, executable environments offer a scalable and verifiable supervision signal for mastering complex, real-world command-line workflows.