ChatPaper.aiChatPaper

TOUCAN : Synthèse de 1,5 million de données d'outils-agentiques à partir d'environnements MCP du monde réel

TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments

October 1, 2025
papers.authors: Zhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda
cs.AI

papers.abstract

Les agents de modèles de langage de grande taille (LLM) émergent rapidement comme des systèmes puissants pour automatiser des tâches dans divers domaines. Cependant, les progrès au sein de la communauté open source sont freinés par le manque de données d'entraînement de haute qualité et sous licence permissive pour les agents utilisant des outils. Les jeux de données existants sont souvent limités en termes de diversité, de réalisme et de complexité, en particulier concernant les interactions multi-outils et multi-tours. Pour combler cette lacune, nous présentons Toucan, le plus grand jeu de données publiquement disponible à ce jour pour les agents utilisant des outils, contenant 1,5 million de trajectoires synthétisées à partir de près de 500 protocoles de contexte de modèle (MCP) du monde réel. Contrairement aux travaux précédents, Toucan exploite des environnements MCP authentiques pour générer des tâches diversifiées, réalistes et complexes, avec des trajectoires impliquant l'exécution réelle d'outils. Notre pipeline produit d'abord un large éventail de requêtes d'utilisation d'outils à l'aide de cinq modèles distincts, applique un filtrage de qualité basé sur des modèles, puis génère des trajectoires agentiques avec trois modèles enseignants utilisant deux frameworks agentiques. Une validation rigoureuse basée sur des règles et des modèles garantit des résultats de haute qualité. Nous introduisons également trois mécanismes d'extension pour diversifier davantage les tâches et simuler des conversations multi-tours. Les modèles affinés sur Toucan surpassent leurs homologues plus grands et propriétaires sur le benchmark BFCL V3 et repoussent la frontière de Pareto sur le benchmark MCP-Universe.
English
Large Language Model (LLM) agents are rapidly emerging as powerful systems for automating tasks across domains. Yet progress in the open-source community is constrained by the lack of high quality permissively licensed tool-agentic training data. Existing datasets are often limited in diversity, realism, and complexity, particularly regarding multi-tool and multi-turn interactions. To address this gap, we introduce Toucan, the largest publicly available tool-agentic dataset to date, containing 1.5 million trajectories synthesized from nearly 500 real-world Model Context Protocols (MCPs). Unlike prior work, Toucan leverages authentic MCP environments to generate diverse, realistic, and challenging tasks with trajectories involving real tool execution. Our pipeline first produces a broad spectrum of tool-use queries using five distinct models, applies model-based quality filtering, and then generates agentic trajectories with three teacher models using two agentic frameworks. Rigorous rule-based and model-based validation ensures high-quality outputs. We also introduce three extension mechanisms to further diversify tasks and simulate multi-turn conversations. Models fine-tuned on Toucan outperform larger closed-source counterparts on the BFCL V3 benchmark and push the Pareto frontier forward on MCP-Universe Bench.
PDF243October 3, 2025