CLI-Universe: Hacia un Motor Verificable de Síntesis de Tareas para Agentes Terminales

Resumen

Si bien los agentes terminales basados en LLM han demostrado capacidades prometedoras en los últimos años, la escasez de datos de entrenamiento de alta calidad y ejecutables sigue siendo un cuello de botella crítico. Las tuberías de síntesis existentes suelen escalar reajustando artefactos superficiales en tareas, lo que frecuentemente genera instrucciones ambiguas, rutas de ejecución superficiales y pruebas frágiles que proporcionan señales de aprendizaje débiles. Para superar esto, presentamos CLI-Universe, un motor de síntesis basado en principios que construye tareas para agentes terminales. CLI-Universe genera tareas candidatas muestreando combinaciones en una taxonomía de capacidades multidimensional (dominio, tipo de habilidad, capacidad y pilar de ingeniería) y luego fundamenta cada candidato mediante investigación profunda guiada por evidencia sobre materiales técnicos del mundo real. Para garantizar una supervisión rigurosa, los planos validados se instancian en entornos contenerizados con Docker y se someten a una tubería de verificación ejecutable de múltiples etapas que presenta construcción de pruebas con puerta de rúbrica, filtrado condicionado por pistas y verificación estricta de fallo a paso. A lo largo de toda la tubería, desde la generación de candidatos hasta la verificación, aproximadamente dos tercios de los candidatos son descartados, conservando solo aquellos que son genuinos, verificables y desafiantes de manera no trivial. Para validar nuestro marco, instanciamos un conjunto de datos altamente destilado de 6000 trayectorias llamado CLI-Universe-6K. Notablemente, el ajuste fino de Qwen3-32B en CLI-Universe-6K logra un 33.4% en Terminal-Bench 2.0. Esto establece un nuevo estado del arte para modelos entrenados con datos de código abierto con 32B parámetros o menos, y supera a varios modelos de un orden de magnitud mayor, demostrando la profunda eficiencia de datos de una síntesis estructurada y de alta fidelidad.

English

While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.