ChatPaper.aiChatPaper

TaskCraft: Geautomatiseerde Generatie van Agentieve Taken

TaskCraft: Automated Generation of Agentic Tasks

June 11, 2025
Auteurs: Dingfeng Shi, Jingyi Cao, Qianben Chen, Weichen Sun, Weizhen Li, Hongxuan Lu, Fangchen Dong, Tianrui Qin, King Zhu, Minghao Yang, Jian Yang, Ge Zhang, Jiaheng Liu, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI

Samenvatting

Agentische taken, die multi-staps probleemoplossing vereisen met autonomie, gereedschapsgebruik en adaptief redeneren, worden steeds centraler in de vooruitgang van NLP en AI. Bestaande instructiedata mist echter interactie met gereedschappen, en huidige agentische benchmarks zijn afhankelijk van kostbare menselijke annotatie, wat hun schaalbaarheid beperkt. Wij introduceren TaskCraft, een geautomatiseerde workflow voor het genereren van moeilijkheidschaalbare, multi-gereedschap en verifieerbare agentische taken met uitvoeringstrajecten. TaskCraft breidt atomische taken uit met diepte- en breedtegebaseerde extensies om structureel en hiërarchisch complexe uitdagingen te creëren. Empirische resultaten tonen aan dat deze taken promptoptimalisatie in de generatieworkflow verbeteren en de supervised fine-tuning van agentische basis-modellen versterken. Wij presenteren een grootschalige synthetische dataset van ongeveer 36.000 taken met variërende moeilijkheidsgraad om toekomstig onderzoek naar agentafstemming en -evaluatie te ondersteunen.
English
Agentic tasks, which require multi-step problem solving with autonomy, tool use, and adaptive reasoning, are becoming increasingly central to the advancement of NLP and AI. However, existing instruction data lacks tool interaction, and current agentic benchmarks rely on costly human annotation, limiting their scalability. We introduce TaskCraft, an automated workflow for generating difficulty-scalable, multi-tool, and verifiable agentic tasks with execution trajectories. TaskCraft expands atomic tasks using depth-based and width-based extensions to create structurally and hierarchically complex challenges. Empirical results show that these tasks improve prompt optimization in the generation workflow and enhance supervised fine-tuning of agentic foundation models. We present a large-scale synthetic dataset of approximately 36,000 tasks with varying difficulty to support future research on agent tuning and evaluation.
PDF323June 17, 2025