TaskCraft: Geautomatiseerde Generatie van Agentieve Taken
TaskCraft: Automated Generation of Agentic Tasks
June 11, 2025
Auteurs: Dingfeng Shi, Jingyi Cao, Qianben Chen, Weichen Sun, Weizhen Li, Hongxuan Lu, Fangchen Dong, Tianrui Qin, King Zhu, Minghao Yang, Jian Yang, Ge Zhang, Jiaheng Liu, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Samenvatting
Agentische taken, die multi-staps probleemoplossing vereisen met autonomie, gereedschapsgebruik en adaptief redeneren, worden steeds centraler in de vooruitgang van NLP en AI. Bestaande instructiedata mist echter interactie met gereedschappen, en huidige agentische benchmarks zijn afhankelijk van kostbare menselijke annotatie, wat hun schaalbaarheid beperkt. Wij introduceren TaskCraft, een geautomatiseerde workflow voor het genereren van moeilijkheidschaalbare, multi-gereedschap en verifieerbare agentische taken met uitvoeringstrajecten. TaskCraft breidt atomische taken uit met diepte- en breedtegebaseerde extensies om structureel en hiërarchisch complexe uitdagingen te creëren. Empirische resultaten tonen aan dat deze taken promptoptimalisatie in de generatieworkflow verbeteren en de supervised fine-tuning van agentische basis-modellen versterken. Wij presenteren een grootschalige synthetische dataset van ongeveer 36.000 taken met variërende moeilijkheidsgraad om toekomstig onderzoek naar agentafstemming en -evaluatie te ondersteunen.
English
Agentic tasks, which require multi-step problem solving with autonomy, tool
use, and adaptive reasoning, are becoming increasingly central to the
advancement of NLP and AI. However, existing instruction data lacks tool
interaction, and current agentic benchmarks rely on costly human annotation,
limiting their scalability. We introduce TaskCraft, an automated
workflow for generating difficulty-scalable, multi-tool, and verifiable agentic
tasks with execution trajectories. TaskCraft expands atomic tasks using
depth-based and width-based extensions to create structurally and
hierarchically complex challenges. Empirical results show that these tasks
improve prompt optimization in the generation workflow and enhance supervised
fine-tuning of agentic foundation models. We present a large-scale synthetic
dataset of approximately 36,000 tasks with varying difficulty to support future
research on agent tuning and evaluation.