TaskCraft: Generazione Automatica di Task Agenti
TaskCraft: Automated Generation of Agentic Tasks
June 11, 2025
Autori: Dingfeng Shi, Jingyi Cao, Qianben Chen, Weichen Sun, Weizhen Li, Hongxuan Lu, Fangchen Dong, Tianrui Qin, King Zhu, Minghao Yang, Jian Yang, Ge Zhang, Jiaheng Liu, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Abstract
I compiti agentivi, che richiedono risoluzione di problemi multi-step con autonomia, uso di strumenti e ragionamento adattivo, stanno diventando sempre più centrali per l'avanzamento dell'NLP e dell'IA. Tuttavia, i dati di istruzione esistenti mancano di interazione con strumenti, e i benchmark agentivi attuali si basano su costose annotazioni umane, limitandone la scalabilità. Introduciamo TaskCraft, un flusso di lavoro automatizzato per generare compiti agentivi scalabili in difficoltà, multi-strumento e verificabili, con traiettorie di esecuzione. TaskCraft espande compiti atomici utilizzando estensioni basate sulla profondità e sulla larghezza per creare sfide strutturalmente e gerarchicamente complesse. I risultati empirici mostrano che questi compiti migliorano l'ottimizzazione dei prompt nel flusso di generazione e potenziano il fine-tuning supervisionato di modelli di base agentivi. Presentiamo un dataset sintetico su larga scala di circa 36.000 compiti con difficoltà variabile per supportare la ricerca futura sulla regolazione e valutazione degli agenti.
English
Agentic tasks, which require multi-step problem solving with autonomy, tool
use, and adaptive reasoning, are becoming increasingly central to the
advancement of NLP and AI. However, existing instruction data lacks tool
interaction, and current agentic benchmarks rely on costly human annotation,
limiting their scalability. We introduce TaskCraft, an automated
workflow for generating difficulty-scalable, multi-tool, and verifiable agentic
tasks with execution trajectories. TaskCraft expands atomic tasks using
depth-based and width-based extensions to create structurally and
hierarchically complex challenges. Empirical results show that these tasks
improve prompt optimization in the generation workflow and enhance supervised
fine-tuning of agentic foundation models. We present a large-scale synthetic
dataset of approximately 36,000 tasks with varying difficulty to support future
research on agent tuning and evaluation.