Hacia una Síntesis Escalable de Tareas Terminales mediante Grafos de Habilidades

Resumen

Los agentes de terminal han demostrado un gran potencial para la ejecución autónoma de líneas de comandos, aunque su entrenamiento sigue limitado por la escasez de trayectorias de ejecución diversas y de alta calidad. Los enfoques existentes mitigan este cuello de botella sintetizando instancias de tareas de terminal a gran escala para el muestreo de trayectorias. Sin embargo, se centran principalmente en escalar el número de tareas, ofreciendo un control limitado sobre la diversidad de las trayectorias de ejecución que los agentes experimentan realmente durante el entrenamiento. En este artículo presentamos SkillSynth, un marco automatizado para la síntesis de tareas de terminal basado en un grafo de habilidades mediado por escenarios. SkillSynth construye primero un grafo de habilidades a gran escala, donde los escenarios sirven como nodos de transición intermedios que conectan diversas habilidades de línea de comandos. Luego, muestrea caminos de este grafo como abstracciones de flujos de trabajo del mundo real, y utiliza un sistema multiagente para instanciarlos en tareas ejecutables. Al basar la síntesis de tareas en caminos de flujo de trabajo muestreados del grafo, SkillSynth controla explícitamente la diversidad de las trayectorias de ejecución mínimas requeridas para resolver las tareas sintetizadas. Los experimentos en Terminal-Bench demuestran la efectividad de SkillSynth. Además, las instancias de tareas sintetizadas por SkillSynth se han adoptado para entrenar a Hy3 Preview, contribuyendo a sus capacidades agenticas mejoradas en entornos basados en terminal.

English

Terminal agents have demonstrated strong potential for autonomous command-line execution, yet their training remains constrained by the scarcity of high-quality and diverse execution trajectories. Existing approaches mitigate this bottleneck by synthesizing large-scale terminal task instances for trajectory sampling. However, they primarily focus on scaling the number of tasks while providing limited control over the diversity of execution trajectories that agents actually experience during training. In this paper, we present SkillSynth, an automated framework for terminal task synthesis built on a scenario-mediated skill graph. SkillSynth first constructs a large-scale skill graph, where scenarios serve as intermediate transition nodes that connect diverse command-line skills. It then samples paths from this graph as abstractions of real-world workflows, and uses a multi-agent harness to instantiate them into executable task instances. By grounding task synthesis in graph-sampled workflow paths, SkillSynth explicitly controls the diversity of minimal execution trajectories required to solve the synthesized tasks. Experiments on Terminal-Bench demonstrate the effectiveness of SkillSynth. Moreover, task instances synthesized by SkillSynth have been adopted to train Hy3 Preview, contributing to its enhanced agentic capabilities in terminal-based settings.

Hacia una Síntesis Escalable de Tareas Terminales mediante Grafos de Habilidades

Toward Scalable Terminal Task Synthesis via Skill Graphs

Resumen

Support