TaskCraft: 에이전트 기반 작업의 자동 생성
TaskCraft: Automated Generation of Agentic Tasks
June 11, 2025
저자: Dingfeng Shi, Jingyi Cao, Qianben Chen, Weichen Sun, Weizhen Li, Hongxuan Lu, Fangchen Dong, Tianrui Qin, King Zhu, Minghao Yang, Jian Yang, Ge Zhang, Jiaheng Liu, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
초록
자율성, 도구 사용, 적응형 추론을 통해 다단계 문제 해결을 요구하는 에이전트 작업(Agentic tasks)은 NLP와 AI의 발전에 있어 점점 더 중심적인 역할을 하고 있습니다. 그러나 기존의 명령 데이터는 도구 상호작용이 부족하며, 현재의 에이전트 벤치마크는 비용이 많이 드는 인간 주석에 의존하여 확장성이 제한됩니다. 우리는 TaskCraft를 소개합니다. TaskCraft는 실행 궤적과 함께 난이도 조절이 가능하고 다중 도구를 사용하며 검증 가능한 에이전트 작업을 자동으로 생성하는 워크플로입니다. TaskCraft는 깊이 기반 및 폭 기반 확장을 통해 원자적 작업을 확장하여 구조적이고 계층적으로 복잡한 과제를 생성합니다. 실험 결과는 이러한 작업이 생성 워크플로에서 프롬프트 최적화를 개선하고 에이전트 기반 모델의 지도 미세 조정을 강화하는 것을 보여줍니다. 우리는 에이전트 튜닝 및 평가를 위한 향후 연구를 지원하기 위해 약 36,000개의 다양한 난이도의 작업으로 구성된 대규모 합성 데이터셋을 제시합니다.
English
Agentic tasks, which require multi-step problem solving with autonomy, tool
use, and adaptive reasoning, are becoming increasingly central to the
advancement of NLP and AI. However, existing instruction data lacks tool
interaction, and current agentic benchmarks rely on costly human annotation,
limiting their scalability. We introduce TaskCraft, an automated
workflow for generating difficulty-scalable, multi-tool, and verifiable agentic
tasks with execution trajectories. TaskCraft expands atomic tasks using
depth-based and width-based extensions to create structurally and
hierarchically complex challenges. Empirical results show that these tasks
improve prompt optimization in the generation workflow and enhance supervised
fine-tuning of agentic foundation models. We present a large-scale synthetic
dataset of approximately 36,000 tasks with varying difficulty to support future
research on agent tuning and evaluation.