ChatPaper.aiChatPaper

TaskCraft: Geração Automatizada de Tarefas Agênticas

TaskCraft: Automated Generation of Agentic Tasks

June 11, 2025
Autores: Dingfeng Shi, Jingyi Cao, Qianben Chen, Weichen Sun, Weizhen Li, Hongxuan Lu, Fangchen Dong, Tianrui Qin, King Zhu, Minghao Yang, Jian Yang, Ge Zhang, Jiaheng Liu, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI

Resumo

Tarefas agentes, que exigem resolução de problemas em múltiplos passos com autonomia, uso de ferramentas e raciocínio adaptativo, estão se tornando cada vez mais centrais para o avanço do PLN e da IA. No entanto, os dados de instrução existentes carecem de interação com ferramentas, e os benchmarks atuais para agentes dependem de anotação humana custosa, limitando sua escalabilidade. Apresentamos o TaskCraft, um fluxo de trabalho automatizado para gerar tarefas agentes escaláveis em dificuldade, com múltiplas ferramentas e verificáveis, incluindo trajetórias de execução. O TaskCraft expande tarefas atômicas usando extensões baseadas em profundidade e largura para criar desafios estrutural e hierarquicamente complexos. Resultados empíricos mostram que essas tarefas melhoram a otimização de prompts no fluxo de geração e aprimoram o ajuste fino supervisionado de modelos base agentes. Apresentamos um conjunto de dados sintético em larga escala com aproximadamente 36.000 tarefas de dificuldade variável para apoiar pesquisas futuras sobre ajuste e avaliação de agentes.
English
Agentic tasks, which require multi-step problem solving with autonomy, tool use, and adaptive reasoning, are becoming increasingly central to the advancement of NLP and AI. However, existing instruction data lacks tool interaction, and current agentic benchmarks rely on costly human annotation, limiting their scalability. We introduce TaskCraft, an automated workflow for generating difficulty-scalable, multi-tool, and verifiable agentic tasks with execution trajectories. TaskCraft expands atomic tasks using depth-based and width-based extensions to create structurally and hierarchically complex challenges. Empirical results show that these tasks improve prompt optimization in the generation workflow and enhance supervised fine-tuning of agentic foundation models. We present a large-scale synthetic dataset of approximately 36,000 tasks with varying difficulty to support future research on agent tuning and evaluation.
PDF323June 17, 2025