CLI-Universum: Naar een verifieerbare taaksynthesemotor voor terminalagenten

Samenvatting

Hoewel recente op LLM gebaseerde terminalagenten veelbelovende capaciteiten hebben getoond, blijft de schaarste aan hoogwaardige, uitvoerbare trainingsdata een kritieke bottleneck. Bestaande synthesipijplijnen schalen doorgaans door oppervlakkige artefacten in taken te hergebruiken, wat vaak leidt tot dubbelzinnige instructies, ondiepe uitvoeringspaden en breekbare tests die zwakke leersignalen opleveren. Om dit te overwinnen introduceren we CLI-Universe, een principiële synthesemotor die taken voor terminalagenten construeert. CLI-Universe genereert kandidaattaken door combinaties te bemonsteren over een multidimensionale capaciteitstaxonomie (domein, vaardigheidstype, capaciteit en technische pijler), en verankert vervolgens elke kandidaat via bewijsgestuurd diepgravend onderzoek van echte technische materialen. Om strikte supervisie te waarborgen, worden gevalideerde blauwdrukken geïnstantieerd in Docker-omgevingen en onderworpen aan een meerfasige uitvoerbare verificatiepijplijn met rubric-gestuurde testconstructie, hint-conditional filtering en strikte fail-to-pass-controles. In de volledige pijplijn, van kandidaatgeneratie tot verificatie, wordt ongeveer tweederde van de kandidaten weggegooid, waarbij alleen die overblijven die authentiek, verifieerbaar en niet-triviaal uitdagend zijn. Om ons raamwerk te valideren, instantieren we een sterk gedistilleerde dataset van 6.000 trajecten genaamd CLI-Universe-6K. Opmerkelijk is dat het finetunen van Qwen3-32B op CLI-Universe-6K 33,4% behaalt op Terminal-Bench 2.0. Dit zet een nieuwe state-of-the-art neer voor modellen getraind op open-sourcedata met 32B parameters of minder, en presteert beter dan verschillende modellen die een orde van grootte groter zijn, wat de diepgaande data-efficiëntie van gestructureerde, hifi-synthese aantoont.

English

While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.