TOUCAN: Synthetiseren van 1,5 miljoen tool-agentische gegevens uit real-world MCP-omgevingen
TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments
October 1, 2025
Auteurs: Zhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda
cs.AI
Samenvatting
Large Language Model (LLM)-agenten komen snel naar voren als krachtige systemen voor het automatiseren van taken in verschillende domeinen. Toch wordt de vooruitgang in de open-sourcegemeenschap beperkt door het gebrek aan hoogwaardige, vrij beschikbare trainingsdata voor tool-gebruikende agenten. Bestaande datasets zijn vaak beperkt in diversiteit, realisme en complexiteit, vooral wat betreft interacties met meerdere tools en meerdere stappen. Om dit gat te dichten, introduceren we Toucan, de grootste openbaar beschikbare tool-gebruikende dataset tot nu toe, met 1,5 miljoen trajecten gesynthetiseerd uit bijna 500 real-world Model Context Protocols (MCPs). In tegenstelling tot eerder werk, maakt Toucan gebruik van authentieke MCP-omgevingen om diverse, realistische en uitdagende taken te genereren met trajecten die echte tool-uitvoering omvatten. Onze pijplijn produceert eerst een breed scala aan tool-gebruikende queries met behulp van vijf verschillende modellen, past modelgebaseerde kwaliteitsfiltering toe, en genereert vervolgens agentische trajecten met drie leraarmodellen met behulp van twee agentische frameworks. Strenge regelgebaseerde en modelgebaseerde validatie zorgt voor hoogwaardige uitvoer. We introduceren ook drie uitbreidingsmechanismen om taken verder te diversifiëren en meerstapsgesprekken te simuleren. Modellen die zijn afgestemd op Toucan presteren beter dan grotere closed-source tegenhangers op de BFCL V3-benchmark en verleggen de Pareto-grens op de MCP-Universe Bench.
English
Large Language Model (LLM) agents are rapidly emerging as powerful systems
for automating tasks across domains. Yet progress in the open-source community
is constrained by the lack of high quality permissively licensed tool-agentic
training data. Existing datasets are often limited in diversity, realism, and
complexity, particularly regarding multi-tool and multi-turn interactions. To
address this gap, we introduce Toucan, the largest publicly available
tool-agentic dataset to date, containing 1.5 million trajectories synthesized
from nearly 500 real-world Model Context Protocols (MCPs). Unlike prior work,
Toucan leverages authentic MCP environments to generate diverse, realistic, and
challenging tasks with trajectories involving real tool execution. Our pipeline
first produces a broad spectrum of tool-use queries using five distinct models,
applies model-based quality filtering, and then generates agentic trajectories
with three teacher models using two agentic frameworks. Rigorous rule-based and
model-based validation ensures high-quality outputs. We also introduce three
extension mechanisms to further diversify tasks and simulate multi-turn
conversations. Models fine-tuned on Toucan outperform larger closed-source
counterparts on the BFCL V3 benchmark and push the Pareto frontier forward on
MCP-Universe Bench.