TOUCAN:実世界のMCP環境から150万のツールエージェントデータを合成
TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments
October 1, 2025
著者: Zhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda
cs.AI
要旨
大規模言語モデル(LLM)エージェントは、さまざまな領域におけるタスク自動化のための強力なシステムとして急速に台頭しています。しかし、オープンソースコミュニティの進展は、高品質で許諾ライセンスされたツールエージェント型トレーニングデータの不足によって制約されています。既存のデータセットは、特にマルチツールおよびマルチターンインタラクションに関して、多様性、現実性、複雑性が限られていることが多いです。このギャップを埋めるため、我々はToucanを紹介します。これは、これまでで最大の公開利用可能なツールエージェント型データセットであり、約500の実世界のモデルコンテキストプロトコル(MCP)から合成された150万の軌跡を含んでいます。従来の研究とは異なり、Toucanは本物のMCP環境を活用して、実際のツール実行を含む多様で現実的かつ挑戦的なタスクを生成します。我々のパイプラインは、まず5つの異なるモデルを使用して幅広いツール使用クエリを生成し、モデルベースの品質フィルタリングを適用した後、2つのエージェント型フレームワークを使用して3つの教師モデルでエージェント型軌跡を生成します。厳密なルールベースおよびモデルベースの検証により、高品質な出力が保証されます。さらに、タスクをさらに多様化し、マルチターン会話をシミュレートするための3つの拡張メカニズムも導入しています。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークにおいてより大規模なクローズドソースのモデルを上回り、MCP-Universe Benchにおいてパレートフロンティアを前進させます。
English
Large Language Model (LLM) agents are rapidly emerging as powerful systems
for automating tasks across domains. Yet progress in the open-source community
is constrained by the lack of high quality permissively licensed tool-agentic
training data. Existing datasets are often limited in diversity, realism, and
complexity, particularly regarding multi-tool and multi-turn interactions. To
address this gap, we introduce Toucan, the largest publicly available
tool-agentic dataset to date, containing 1.5 million trajectories synthesized
from nearly 500 real-world Model Context Protocols (MCPs). Unlike prior work,
Toucan leverages authentic MCP environments to generate diverse, realistic, and
challenging tasks with trajectories involving real tool execution. Our pipeline
first produces a broad spectrum of tool-use queries using five distinct models,
applies model-based quality filtering, and then generates agentic trajectories
with three teacher models using two agentic frameworks. Rigorous rule-based and
model-based validation ensures high-quality outputs. We also introduce three
extension mechanisms to further diversify tasks and simulate multi-turn
conversations. Models fine-tuned on Toucan outperform larger closed-source
counterparts on the BFCL V3 benchmark and push the Pareto frontier forward on
MCP-Universe Bench.