Verso una Sintesi Scalabile dei Task Terminali tramite Grafi delle Abilità

Abstract

Gli agenti di terminale hanno dimostrato un forte potenziale per l'esecuzione autonoma da riga di comando, tuttavia il loro addestramento rimane vincolato dalla scarsità di traiettorie di esecuzione di alta qualità e diversificate. Gli approcci esistenti mitigano questo collo di bottiglia sintetizzando istanze di attività di terminale su larga scala per il campionamento delle traiettorie. Tuttavia, si concentrano principalmente sul scalare il numero di attività, offrendo un controllo limitato sulla diversità delle traiettorie di esecuzione che gli agenti sperimentano effettivamente durante l'addestramento. In questo articolo presentiamo SkillSynth, un framework automatizzato per la sintesi di attività di terminale basato su un grafo delle competenze mediato da scenari. SkillSynth costruisce prima un grafo delle competenze su larga scala, in cui gli scenari fungono da nodi di transizione intermedi che collegano diverse competenze da riga di comando. Successivamente, campiona percorsi da questo grafo come astrazioni di flussi di lavoro del mondo reale e utilizza un sistema multi-agente per istanziarli in attività eseguibili. Fondando la sintesi delle attività su percorsi di lavoro campionati dal grafo, SkillSynth controlla esplicitamente la diversità delle traiettorie di esecuzione minime necessarie per risolvere le attività sintetizzate. Esperimenti su Terminal-Bench dimostrano l'efficacia di SkillSynth. Inoltre, le istanze di attività sintetizzate da SkillSynth sono state adottate per addestrare Hy3 Preview, contribuendo alle sue capacità agentive potenziate in ambienti basati su terminale.

English

Terminal agents have demonstrated strong potential for autonomous command-line execution, yet their training remains constrained by the scarcity of high-quality and diverse execution trajectories. Existing approaches mitigate this bottleneck by synthesizing large-scale terminal task instances for trajectory sampling. However, they primarily focus on scaling the number of tasks while providing limited control over the diversity of execution trajectories that agents actually experience during training. In this paper, we present SkillSynth, an automated framework for terminal task synthesis built on a scenario-mediated skill graph. SkillSynth first constructs a large-scale skill graph, where scenarios serve as intermediate transition nodes that connect diverse command-line skills. It then samples paths from this graph as abstractions of real-world workflows, and uses a multi-agent harness to instantiate them into executable task instances. By grounding task synthesis in graph-sampled workflow paths, SkillSynth explicitly controls the diversity of minimal execution trajectories required to solve the synthesized tasks. Experiments on Terminal-Bench demonstrate the effectiveness of SkillSynth. Moreover, task instances synthesized by SkillSynth have been adopted to train Hy3 Preview, contributing to its enhanced agentic capabilities in terminal-based settings.

Verso una Sintesi Scalabile dei Task Terminali tramite Grafi delle Abilità

Toward Scalable Terminal Task Synthesis via Skill Graphs

Abstract

Support