Rumo à Síntese Escalável de Tarefas de Terminal via Grafos de Habilidades

Resumo

Os agentes de terminal demonstraram forte potencial para execução autónoma na linha de comandos, contudo, o seu treino continua limitado pela escassez de trajectórias de execução de alta qualidade e diversificadas. As abordagens existentes mitigam este estrangulamento através da síntese de instâncias de tarefas de terminal em larga escala para amostragem de trajectórias. No entanto, focam-se principalmente na escalabilidade do número de tarefas, oferecendo um controlo limitado sobre a diversidade das trajectórias de execução que os agentes realmente experienciam durante o treino. Neste artigo, apresentamos o SkillSynth, um quadro automatizado para síntese de tarefas de terminal, baseado num grafo de competências mediado por cenários. O SkillSynth constrói primeiro um grafo de competências em larga escala, onde os cenários funcionam como nós de transição intermédios que ligam diversas competências da linha de comandos. De seguida, amostra caminhos deste grafo como abstracções de fluxos de trabalho do mundo real, e utiliza um *harness* multiagente para os instanciar em tarefas executáveis. Ao fundamentar a síntese de tarefas em caminhos de fluxo de trabalho amostrados do grafo, o SkillSynth controla explicitamente a diversidade das trajectórias de execução mínimas necessárias para resolver as tarefas sintetizadas. Experiências no Terminal-Bench demonstram a eficácia do SkillSynth. Além disso, as instâncias de tarefas sintetizadas pelo SkillSynth foram adoptadas para treinar o Hy3 Preview, contribuindo para as suas capacidades agentivas melhoradas em ambientes baseados em terminal.

English

Terminal agents have demonstrated strong potential for autonomous command-line execution, yet their training remains constrained by the scarcity of high-quality and diverse execution trajectories. Existing approaches mitigate this bottleneck by synthesizing large-scale terminal task instances for trajectory sampling. However, they primarily focus on scaling the number of tasks while providing limited control over the diversity of execution trajectories that agents actually experience during training. In this paper, we present SkillSynth, an automated framework for terminal task synthesis built on a scenario-mediated skill graph. SkillSynth first constructs a large-scale skill graph, where scenarios serve as intermediate transition nodes that connect diverse command-line skills. It then samples paths from this graph as abstractions of real-world workflows, and uses a multi-agent harness to instantiate them into executable task instances. By grounding task synthesis in graph-sampled workflow paths, SkillSynth explicitly controls the diversity of minimal execution trajectories required to solve the synthesized tasks. Experiments on Terminal-Bench demonstrate the effectiveness of SkillSynth. Moreover, task instances synthesized by SkillSynth have been adopted to train Hy3 Preview, contributing to its enhanced agentic capabilities in terminal-based settings.

Rumo à Síntese Escalável de Tarefas de Terminal via Grafos de Habilidades

Toward Scalable Terminal Task Synthesis via Skill Graphs

Resumo

Support