ChatPaper.aiChatPaper

TOUCAN: Sintesi di 1,5 milioni di dati tool-agentici da ambienti MCP del mondo reale

TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments

October 1, 2025
Autori: Zhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) si stanno rapidamente affermando come sistemi potenti per l'automazione di attività in vari ambiti. Tuttavia, i progressi nella comunità open-source sono limitati dalla mancanza di dati di addestramento di alta qualità e con licenza permissiva per agenti strumentali. I dataset esistenti sono spesso limitati in termini di diversità, realismo e complessità, in particolare per quanto riguarda le interazioni multi-strumento e multi-turn. Per colmare questa lacuna, presentiamo Toucan, il più grande dataset pubblico di agenti strumentali disponibile fino ad oggi, contenente 1,5 milioni di traiettorie sintetizzate da quasi 500 Protocolli di Contesto Modello (MCP) del mondo reale. A differenza dei lavori precedenti, Toucan sfrutta ambienti MCP autentici per generare compiti diversificati, realistici e impegnativi con traiettorie che coinvolgono l'esecuzione reale di strumenti. La nostra pipeline produce prima un ampio spettro di query di utilizzo di strumenti utilizzando cinque modelli distinti, applica un filtraggio di qualità basato su modelli e poi genera traiettorie agentiche con tre modelli insegnanti utilizzando due framework agentici. Una rigorosa validazione basata su regole e modelli garantisce output di alta qualità. Introduciamo inoltre tre meccanismi di estensione per diversificare ulteriormente i compiti e simulare conversazioni multi-turn. I modelli fine-tuned su Toucan superano le controparti closed-source più grandi sul benchmark BFCL V3 e spingono in avanti la frontiera di Pareto su MCP-Universe Bench.
English
Large Language Model (LLM) agents are rapidly emerging as powerful systems for automating tasks across domains. Yet progress in the open-source community is constrained by the lack of high quality permissively licensed tool-agentic training data. Existing datasets are often limited in diversity, realism, and complexity, particularly regarding multi-tool and multi-turn interactions. To address this gap, we introduce Toucan, the largest publicly available tool-agentic dataset to date, containing 1.5 million trajectories synthesized from nearly 500 real-world Model Context Protocols (MCPs). Unlike prior work, Toucan leverages authentic MCP environments to generate diverse, realistic, and challenging tasks with trajectories involving real tool execution. Our pipeline first produces a broad spectrum of tool-use queries using five distinct models, applies model-based quality filtering, and then generates agentic trajectories with three teacher models using two agentic frameworks. Rigorous rule-based and model-based validation ensures high-quality outputs. We also introduce three extension mechanisms to further diversify tasks and simulate multi-turn conversations. Models fine-tuned on Toucan outperform larger closed-source counterparts on the BFCL V3 benchmark and push the Pareto frontier forward on MCP-Universe Bench.
PDF243October 3, 2025