CLI-Universe : Vers un moteur de synthèse de tâches vérifiables pour agents terminaux

Résumé

Bien que les récents agents terminaux basés sur les LLM aient démontré des capacités prometteuses, la rareté de données d’entraînement exécutables de haute qualité reste un goulet d’étranglement critique. Les pipelines de synthèse existants passent généralement à l’échelle en adaptant des artefacts de surface en tâches, ce qui produit fréquemment des instructions ambiguës, des chemins d’exécution peu profonds et des tests fragiles offrant des signaux d’apprentissage faibles. Pour surmonter cette difficulté, nous introduisons CLI-Universe, un moteur de synthèse fondé sur des principes qui construit des tâches pour agents terminaux. CLI-Universe génère des tâches candidates en échantillonnant des combinaisons à travers une taxonomie de capacités multidimensionnelle (domaine, type de compétence, capacité et pilier d’ingénierie), puis ancre chaque candidate par une recherche approfondie guidée par des preuves dans des documents techniques réels. Afin d’assurer une supervision rigoureuse, les plans validés sont instanciés dans des environnements Dockerisés et soumis à un pipeline de vérification exécutable en plusieurs étapes, comprenant une construction de tests par grille d’évaluation, un filtrage conditionnel par indice et une vérification stricte de type échec-à-réussite. Sur l’ensemble du pipeline, de la génération des candidates à la vérification, environ deux tiers des candidates sont écartées, ne retenant que celles qui sont authentiques, vérifiables et non trivialement difficiles. Pour valider notre cadre, nous instancions un ensemble de données hautement distillé de 6 000 trajectoires appelé CLI-Universe-6K. De manière remarquable, l’affinage de Qwen3-32B sur CLI-Universe-6K atteint 33,4 % sur Terminal-Bench 2.0. Cela établit un nouvel état de l’art pour les modèles entraînés sur des données open source à 32B paramètres ou moins, et surpasse plusieurs modèles d’un ordre de grandeur plus grands, démontrant l’efficacité profonde en données d’une synthèse structurée et haute-fidélité.

English

While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.