TaskCraft: Generación Automatizada de Tareas Agénticas
TaskCraft: Automated Generation of Agentic Tasks
June 11, 2025
Autores: Dingfeng Shi, Jingyi Cao, Qianben Chen, Weichen Sun, Weizhen Li, Hongxuan Lu, Fangchen Dong, Tianrui Qin, King Zhu, Minghao Yang, Jian Yang, Ge Zhang, Jiaheng Liu, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Resumen
Las tareas agentivas, que requieren resolución de problemas en múltiples pasos con autonomía, uso de herramientas y razonamiento adaptativo, están volviéndose cada vez más centrales para el avance del PLN y la IA. Sin embargo, los datos de instrucción existentes carecen de interacción con herramientas, y los benchmarks agentivos actuales dependen de costosas anotaciones humanas, lo que limita su escalabilidad. Presentamos TaskCraft, un flujo de trabajo automatizado para generar tareas agentivas escalables en dificultad, multiherramienta y verificables, con trayectorias de ejecución. TaskCraft expande tareas atómicas utilizando extensiones basadas en profundidad y amplitud para crear desafíos estructural y jerárquicamente complejos. Los resultados empíricos muestran que estas tareas mejoran la optimización de prompts en el flujo de generación y refinan el ajuste supervisado de modelos base agentivos. Presentamos un conjunto de datos sintéticos a gran escala de aproximadamente 36,000 tareas con dificultad variable para apoyar futuras investigaciones sobre ajuste y evaluación de agentes.
English
Agentic tasks, which require multi-step problem solving with autonomy, tool
use, and adaptive reasoning, are becoming increasingly central to the
advancement of NLP and AI. However, existing instruction data lacks tool
interaction, and current agentic benchmarks rely on costly human annotation,
limiting their scalability. We introduce TaskCraft, an automated
workflow for generating difficulty-scalable, multi-tool, and verifiable agentic
tasks with execution trajectories. TaskCraft expands atomic tasks using
depth-based and width-based extensions to create structurally and
hierarchically complex challenges. Empirical results show that these tasks
improve prompt optimization in the generation workflow and enhance supervised
fine-tuning of agentic foundation models. We present a large-scale synthetic
dataset of approximately 36,000 tasks with varying difficulty to support future
research on agent tuning and evaluation.