ChatPaper.aiChatPaper

TOUCAN: 실제 MCP 환경에서 150만 개의 도구-에이전트 데이터 합성

TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments

October 1, 2025
저자: Zhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda
cs.AI

초록

대규모 언어 모델(LLM) 에이전트는 다양한 도메인에서 작업을 자동화하는 강력한 시스템으로 빠르게 부상하고 있습니다. 그러나 오픈소스 커뮤니티의 발전은 고품질의 허가된 라이선스를 가진 도구-에이전트 학습 데이터의 부족으로 인해 제약을 받고 있습니다. 기존 데이터셋은 다양성, 현실성, 복잡성 측면에서 특히 다중 도구 및 다중 턴 상호작용과 관련하여 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 현재까지 공개된 도구-에이전트 데이터셋 중 가장 큰 규모인 Toucan을 소개합니다. Toucan은 약 500개의 실제 Model Context Protocol(MCP)에서 합성된 150만 개의 트레이젝토리를 포함하고 있습니다. 기존 연구와 달리, Toucan은 실제 MCP 환경을 활용하여 다양한 현실적이고 도전적인 작업을 생성하며, 실제 도구 실행을 포함한 트레이젝토리를 제공합니다. 우리의 파이프라인은 먼저 5개의 서로 다른 모델을 사용하여 광범위한 도구 사용 쿼리를 생성하고, 모델 기반 품질 필터링을 적용한 후, 두 가지 에이전트 프레임워크를 사용하여 세 개의 교사 모델로 에이전트 트레이젝토리를 생성합니다. 엄격한 규칙 기반 및 모델 기반 검증을 통해 고품질의 출력을 보장합니다. 또한, 우리는 작업을 더욱 다양화하고 다중 턴 대화를 시뮬레이션하기 위해 세 가지 확장 메커니즘을 도입했습니다. Toucan으로 미세 조정된 모델은 BFCL V3 벤치마크에서 더 큰 규모의 클로즈드소스 대응 모델을 능가하며, MCP-Universe Bench에서 파레토 프론티어를 앞당겼습니다.
English
Large Language Model (LLM) agents are rapidly emerging as powerful systems for automating tasks across domains. Yet progress in the open-source community is constrained by the lack of high quality permissively licensed tool-agentic training data. Existing datasets are often limited in diversity, realism, and complexity, particularly regarding multi-tool and multi-turn interactions. To address this gap, we introduce Toucan, the largest publicly available tool-agentic dataset to date, containing 1.5 million trajectories synthesized from nearly 500 real-world Model Context Protocols (MCPs). Unlike prior work, Toucan leverages authentic MCP environments to generate diverse, realistic, and challenging tasks with trajectories involving real tool execution. Our pipeline first produces a broad spectrum of tool-use queries using five distinct models, applies model-based quality filtering, and then generates agentic trajectories with three teacher models using two agentic frameworks. Rigorous rule-based and model-based validation ensures high-quality outputs. We also introduce three extension mechanisms to further diversify tasks and simulate multi-turn conversations. Models fine-tuned on Toucan outperform larger closed-source counterparts on the BFCL V3 benchmark and push the Pareto frontier forward on MCP-Universe Bench.
PDF243October 3, 2025