기술 그래프를 통한 확장 가능한 단말 작업 합성 방향
Toward Scalable Terminal Task Synthesis via Skill Graphs
April 28, 2026
저자: Zhiyuan Fan, Tinghao Yu, Yuanjun Cai, Jiangtao Guan, Yun Yang, Dingxin Hu, Jiang Zhou, Xing Wu, Zhuo Han, Feng Zhang, Lilin Wang
cs.AI
초록
터미널 에이전트는 자율적인 명령줄 실행에서 강력한 잠재력을 보여주었으나, 고품질이고 다양한 실행 궤적의 부족으로 인해 훈련에는 여전히 제약이 따릅니다. 기존 접근법은 궤적 샘플링을 위해 대규모 터미널 작업 인스턴스를 합성하여 이 병목 현상을 완화합니다. 그러나 이러한 방법들은 주로 작업 수의 확장에 초점을 맞추며, 에이전트가 훈련 중 실제로 경험하는 실행 궤적의 다양성에 대한 통제는 제한적으로 제공합니다. 본 논문에서는 시나리오 기반 스킬 그래프 위에 구축된 자동화된 터미널 작업 합성 프레임워크인 SkillSynth를 제안합니다. SkillSynth는 먼저 시나리오를 다양한 명령줄 스킬을 연결하는 중간 전이 노드로 활용하는 대규모 스킬 그래프를 구성합니다. 그런 다음 이 그래프에서 경로를 샘플링하여 실제 워크플로의 추상화로 사용하고, 다중 에이전트 시스템을 통해 이를 실행 가능한 작업 인스턴스로 구현합니다. 그래프에서 샘플링된 워크플로 경로에 작업 합성을 기반으로 함으로써, SkillSynth는 합성된 작업을 해결하는 데 필요한 최소 실행 궤적의 다양성을 명시적으로 제어합니다. Terminal-Bench에서의 실험을 통해 SkillSynth의 효과성을 입증했습니다. 더 나아가, SkillSynth로 합성된 작업 인스턴스는 Hy3 Preview의 훈련에 채택되어 터미널 기반 환경에서의 향상된 에이전트 능력에 기여했습니다.
English
Terminal agents have demonstrated strong potential for autonomous command-line execution, yet their training remains constrained by the scarcity of high-quality and diverse execution trajectories. Existing approaches mitigate this bottleneck by synthesizing large-scale terminal task instances for trajectory sampling. However, they primarily focus on scaling the number of tasks while providing limited control over the diversity of execution trajectories that agents actually experience during training. In this paper, we present SkillSynth, an automated framework for terminal task synthesis built on a scenario-mediated skill graph. SkillSynth first constructs a large-scale skill graph, where scenarios serve as intermediate transition nodes that connect diverse command-line skills. It then samples paths from this graph as abstractions of real-world workflows, and uses a multi-agent harness to instantiate them into executable task instances. By grounding task synthesis in graph-sampled workflow paths, SkillSynth explicitly controls the diversity of minimal execution trajectories required to solve the synthesized tasks. Experiments on Terminal-Bench demonstrate the effectiveness of SkillSynth. Moreover, task instances synthesized by SkillSynth have been adopted to train Hy3 Preview, contributing to its enhanced agentic capabilities in terminal-based settings.