スキルグラフによるスケーラブルな終端タスク合成に向けて
Toward Scalable Terminal Task Synthesis via Skill Graphs
April 28, 2026
著者: Zhiyuan Fan, Tinghao Yu, Yuanjun Cai, Jiangtao Guan, Yun Yang, Dingxin Hu, Jiang Zhou, Xing Wu, Zhuo Han, Feng Zhang, Lilin Wang
cs.AI
要旨
ターミナルエージェントは自律的なコマンドライン実行において強力な可能性を示しているが、その学習は高品質で多様な実行軌跡の不足によって制約を受け続けている。既存のアプローチは、軌跡サンプリングのための大規模なターミナルタスクインスタンスを合成することで、このボトルネックを緩和している。しかし、それらは主にタスク数のスケーリングに焦点を当てており、エージェントが学習中に実際に経験する実行軌跡の多様性を制御する機能は限られている。本論文では、シナリオ媒介型スキルグラフに基づくターミナルタスク合成の自動化フレームワークであるSkillSynthを提案する。SkillSynthはまず、シナリオを多様なコマンドラインスキルを接続する中間遷移ノードとして機能させる大規模スキルグラフを構築する。次に、このグラフからパスをサンプリングして現実世界のワークフローの抽象化とし、マルチエージェントシステムを用いて実行可能なタスクインスタンスへと具体化する。グラフからサンプリングされたワークフローパスにタスク合成を基盤させることで、SkillSynthは合成タスクを解決するために必要な最小限の実行軌跡の多様性を明示的に制御する。Terminal-Benchを用いた実験により、SkillSynthの有効性が実証された。さらに、SkillSynthによって合成されたタスクインスタンスはHy3 Previewの学習に採用され、ターミナルベースの環境におけるそのエージェント能力の向上に貢献している。
English
Terminal agents have demonstrated strong potential for autonomous command-line execution, yet their training remains constrained by the scarcity of high-quality and diverse execution trajectories. Existing approaches mitigate this bottleneck by synthesizing large-scale terminal task instances for trajectory sampling. However, they primarily focus on scaling the number of tasks while providing limited control over the diversity of execution trajectories that agents actually experience during training. In this paper, we present SkillSynth, an automated framework for terminal task synthesis built on a scenario-mediated skill graph. SkillSynth first constructs a large-scale skill graph, where scenarios serve as intermediate transition nodes that connect diverse command-line skills. It then samples paths from this graph as abstractions of real-world workflows, and uses a multi-agent harness to instantiate them into executable task instances. By grounding task synthesis in graph-sampled workflow paths, SkillSynth explicitly controls the diversity of minimal execution trajectories required to solve the synthesized tasks. Experiments on Terminal-Bench demonstrate the effectiveness of SkillSynth. Moreover, task instances synthesized by SkillSynth have been adopted to train Hy3 Preview, contributing to its enhanced agentic capabilities in terminal-based settings.