CLI-Universe: К движку синтеза верифицируемых задач для терминальных агентов

Аннотация

Несмотря на то, что недавние LLM-агенты для терминала продемонстрировали многообещающие возможности, нехватка высококачественных исполняемых обучающих данных remains критическим узким местом. Существующие конвейеры синтеза обычно масштабируются путем адаптации поверхностных артефактов в задачи, что часто приводит к неоднозначным инструкциям, неглубоким путям выполнения и хрупким тестам, обеспечивающим слабые обучающие сигналы. Чтобы преодолеть это, мы представляем CLI-Universe — принципиальный движок синтеза, конструирующий задачи для терминальных агентов. CLI-Universe генерирует задачи-кандидаты путем выборки комбинаций по многомерной таксономии способностей (домен, тип навыка, умение и инженерный столп), а затем обосновывает каждую задачу с помощью поиска на основе фактических данных по реальным техническим материалам. Для обеспечения строгого контроля проверенные прототипы развертываются в Docker-средах и подвергаются многоэтапному конвейеру верификации исполняемости, включающему тестовую конструкцию на основе рубрик, фильтрацию по условию подсказок и строгую проверку перехода от неудачи к успеху. В рамках всего конвейера — от генерации кандидатов до верификации — примерно две трети кандидатов отбрасываются, сохраняются только те, которые являются подлинными, проверяемыми и нетривиально сложными. Для валидации нашего фреймворка мы создали высокодистиллированный набор данных из 6000 траекторий под названием CLI-Universe-6K. Примечательно, что дообучение Qwen3-32B на CLI-Universe-6K достигает 33.4% на Terminal-Bench 2.0. Это устанавливает новый state-of-the-art для моделей, обученных на открытых данных с размером не более 32B параметров, и превосходит несколько моделей на порядок больше, демонстрируя глубокую эффективность структурированного высокоточного синтеза данных.

English

While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.