CLI-Universe: Auf dem Weg zu einer verifizierbaren Aufgabensynthese-Engine für Terminal-Agenten

Zusammenfassung

Während neuere LLM-basierte Terminal-Agenten vielversprechende Fähigkeiten gezeigt haben, bleibt die Knappheit an hochwertigen, ausführbaren Trainingsdaten ein kritischer Engpass. Bestehende Synthese-Pipelines skalieren typischerweise, indem sie oberflächliche Artefakte nachträglich in Aufgaben einfügen, was häufig zu mehrdeutigen Anweisungen, oberflächlichen Ausführungspfaden und fragilen Tests führt, die schwache Lernsignale liefern. Um dies zu überwinden, führen wir CLI-Universe ein, eine prinzipienbasierte Synthese-Engine zur Konstruktion von Terminal-Agenten-Aufgaben. CLI-Universe generiert Kandidatenaufgaben durch das Sampling von Kombinationen aus einer mehrdimensionalen Fähigkeitstaxonomie (Domäne, Fertigkeitstyp, Fähigkeit und technologische Säule) und verankert dann jeden Kandidaten durch evidenzgeführte Tiefenrecherche über reale technische Materialien. Um eine strenge Überwachung zu gewährleisten, werden validierte Blaupausen in Docker-Umgebungen instanziiert und einer mehrstufigen Pipeline zur Überprüfung der Ausführbarkeit unterzogen, die eine rubricengesteuerte Testkonstruktion, eine hinweisbedingte Filterung und eine strenge Fail-to-Pass-Prüfung umfasst. Über die gesamte Pipeline hinweg, von der Kandidatengenerierung bis zur Verifikation, werden etwa zwei Drittel der Kandidaten verworfen, sodass nur solche erhalten bleiben, die echt, verifizierbar und nicht trivial herausfordernd sind. Zur Validierung unseres Frameworks instanziieren wir einen hochgradig destillierten Datensatz von 6.000 Trajektorien namens CLI-Universe-6K. Bemerkenswerterweise erreicht das Feintuning von Qwen3-32B auf CLI-Universe-6K 33,4 % auf Terminal-Bench 2.0. Dies setzt einen neuen Stand der Technik für Modelle, die auf Open-Source-Daten mit maximal 32B Parametern trainiert wurden, und übertrifft mehrere Modelle, die eine Größenordnung größer sind, was die tiefgreifende Dateneffizienz strukturierter, hochgenauer Synthese demonstriert.

English

While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.