ChatPaper.aiChatPaper

CLI-Universe: К движку синтеза верифицируемых задач для терминальных агентов

CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents

June 22, 2026
Авторы: Zhanbo Hua, Yifan Yao, Weihao Xie, Yongchi Zhao, Minghao Liu, Ruizhi Qiu, Zhewei Huang, Zun Wang, Yiyan Ji, Yunhai Ye, Letian Zhu, Xinping Lei, Han Li, Zhiyuan Ma, Zili Wang, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

Аннотация

Несмотря на то, что недавние LLM-агенты для терминала продемонстрировали многообещающие возможности, нехватка высококачественных исполняемых обучающих данных remains критическим узким местом. Существующие конвейеры синтеза обычно масштабируются путем адаптации поверхностных артефактов в задачи, что часто приводит к неоднозначным инструкциям, неглубоким путям выполнения и хрупким тестам, обеспечивающим слабые обучающие сигналы. Чтобы преодолеть это, мы представляем CLI-Universe — принципиальный движок синтеза, конструирующий задачи для терминальных агентов. CLI-Universe генерирует задачи-кандидаты путем выборки комбинаций по многомерной таксономии способностей (домен, тип навыка, умение и инженерный столп), а затем обосновывает каждую задачу с помощью поиска на основе фактических данных по реальным техническим материалам. Для обеспечения строгого контроля проверенные прототипы развертываются в Docker-средах и подвергаются многоэтапному конвейеру верификации исполняемости, включающему тестовую конструкцию на основе рубрик, фильтрацию по условию подсказок и строгую проверку перехода от неудачи к успеху. В рамках всего конвейера — от генерации кандидатов до верификации — примерно две трети кандидатов отбрасываются, сохраняются только те, которые являются подлинными, проверяемыми и нетривиально сложными. Для валидации нашего фреймворка мы создали высокодистиллированный набор данных из 6000 траекторий под названием CLI-Universe-6K. Примечательно, что дообучение Qwen3-32B на CLI-Universe-6K достигает 33.4% на Terminal-Bench 2.0. Это устанавливает новый state-of-the-art для моделей, обученных на открытых данных с размером не более 32B параметров, и превосходит несколько моделей на порядок больше, демонстрируя глубокую эффективность структурированного высокоточного синтеза данных.
English
While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.