에이전트 데이터 프로토콜: 다양한 LLM 에이전트의 효과적 미세 조정을 위한 데이터셋 통합
Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents
October 28, 2025
저자: Yueqi Song, Ketan Ramaneti, Zaid Sheikh, Ziru Chen, Boyu Gou, Tianbao Xie, Yiheng Xu, Danyang Zhang, Apurva Gandhi, Fan Yang, Joseph Liu, Tianyue Ou, Zhihao Yuan, Frank Xu, Shuyan Zhou, Xingyao Wang, Xiang Yue, Tao Yu, Huan Sun, Yu Su, Graham Neubig
cs.AI
초록
대규모 지도 미세조정을 통한 AI 에이전트 학습에 대한 공개 연구 결과는 에이전트 훈련 데이터 수집이 특유의 어려움을 내포하고 있어 상대적으로 드물다. 본 연구에서는 이러한 병목 현상이 근본적인 데이터 원천의 부족이 아니라, 다양한 데이터가 이기종 형식과 도구, 인터페이스에 분산되어 있기 때문이라고 주장한다. 이를 위해 우리는 다양한 형식의 에이전트 데이터셋과 하류의 통합 에이전트 훈련 파이프라인 사이의 "중간 언어" 역할을 하는 경량 표현 언어인 에이전트 데이터 프로토콜(ADP)을 소개한다. ADP의 설계는 API/도구 사용, 브라우징, 코딩, 소프트웨어 공학, 일반적인 에이전트 워크플로우 등 다양한 작업을 포착할 수 있을 만큼 표현력이 뛰어나면서도, 데이터셋별 엔지니어링 없이도 구문 분석과 훈련이 간단하다. 실험에서는 13개의 기존 에이전트 훈련 데이터셋을 광범위하게 수집하여 ADP 형식으로 통합하고, 표준화된 ADP 데이터를 여러 에이전트 프레임워크에 맞는 훈련 가능 형식으로 변환했다. 이 데이터에 대해 지도 미세조정을 수행한 결과, 해당 기본 모델 대비 평균 약 20%의 성능 향상을 보였으며, 도메인 특화적 조정 없이도 표준 코딩, 브라우징, 도구 사용, 리서치 벤치마크에서 최첨단 또는 최첨단에 근접한 성능을 제공했다. ADP가 표준화되고 확장 가능하며 재현 가능한 에이전트 훈련의 진입 장벽을 낮추는 데 도움이 되길 바라며, 모든 코드와 데이터를 공개한다.
English
Public research results on large-scale supervised finetuning of AI agents
remain relatively rare, since the collection of agent training data presents
unique challenges. In this work, we argue that the bottleneck is not a lack of
underlying data sources, but that a large variety of data is fragmented across
heterogeneous formats, tools, and interfaces. To this end, we introduce the
agent data protocol (ADP), a light-weight representation language that serves
as an "interlingua" between agent datasets in diverse formats and unified agent
training pipelines downstream. The design of ADP is expressive enough to
capture a large variety of tasks, including API/tool use, browsing, coding,
software engineering, and general agentic workflows, while remaining simple to
parse and train on without engineering at a per-dataset level. In experiments,
we unified a broad collection of 13 existing agent training datasets into ADP
format, and converted the standardized ADP data into training-ready formats for
multiple agent frameworks. We performed SFT on these data, and demonstrated an
average performance gain of ~20% over corresponding base models, and delivers
state-of-the-art or near-SOTA performance on standard coding, browsing, tool
use, and research benchmarks, without domain-specific tuning. All code and data
are released publicly, in the hope that ADP could help lower the barrier to
standardized, scalable, and reproducible agent training.