TOUCAN: Synthetisierung von 1,5 Millionen Tool-Agenten-Daten aus realen MCP-Umgebungen
TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments
October 1, 2025
papers.authors: Zhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda
cs.AI
papers.abstract
Große Sprachmodell-Agenten (LLM-Agenten) entwickeln sich schnell zu leistungsstarken Systemen für die Automatisierung von Aufgaben in verschiedenen Bereichen. Dennoch wird der Fortschritt in der Open-Source-Community durch den Mangel an hochwertigen, frei lizenzierten Trainingsdaten für Tool-Agenten eingeschränkt. Bestehende Datensätze sind oft in Bezug auf Vielfalt, Realismus und Komplexität begrenzt, insbesondere bei Multi-Tool- und Multi-Turn-Interaktionen. Um diese Lücke zu schließen, stellen wir Toucan vor, den bisher größten öffentlich verfügbaren Tool-Agenten-Datensatz, der 1,5 Millionen Trajektorien enthält, die aus fast 500 realen Model Context Protocols (MCPs) synthetisiert wurden. Im Gegensatz zu früheren Arbeiten nutzt Toucan authentische MCP-Umgebungen, um vielfältige, realistische und anspruchsvolle Aufgaben mit Trajektorien zu generieren, die die tatsächliche Ausführung von Tools beinhalten. Unsere Pipeline erzeugt zunächst ein breites Spektrum von Tool-Nutzungsanfragen mithilfe von fünf verschiedenen Modellen, wendet modellbasierte Qualitätsfilterung an und generiert dann agentische Trajektorien mit drei Lehrer-Modellen unter Verwendung von zwei agentischen Frameworks. Strenge regelbasierte und modellbasierte Validierung sorgt für hochwertige Ausgaben. Wir führen außerdem drei Erweiterungsmechanismen ein, um Aufgaben weiter zu diversifizieren und Multi-Turn-Gespräche zu simulieren. Modelle, die auf Toucan feinabgestimmt wurden, übertreffen größere Closed-Source-Modelle auf dem BFCL V3-Benchmark und verschieben die Pareto-Front auf dem MCP-Universe-Bench weiter nach vorne.
English
Large Language Model (LLM) agents are rapidly emerging as powerful systems
for automating tasks across domains. Yet progress in the open-source community
is constrained by the lack of high quality permissively licensed tool-agentic
training data. Existing datasets are often limited in diversity, realism, and
complexity, particularly regarding multi-tool and multi-turn interactions. To
address this gap, we introduce Toucan, the largest publicly available
tool-agentic dataset to date, containing 1.5 million trajectories synthesized
from nearly 500 real-world Model Context Protocols (MCPs). Unlike prior work,
Toucan leverages authentic MCP environments to generate diverse, realistic, and
challenging tasks with trajectories involving real tool execution. Our pipeline
first produces a broad spectrum of tool-use queries using five distinct models,
applies model-based quality filtering, and then generates agentic trajectories
with three teacher models using two agentic frameworks. Rigorous rule-based and
model-based validation ensures high-quality outputs. We also introduce three
extension mechanisms to further diversify tasks and simulate multi-turn
conversations. Models fine-tuned on Toucan outperform larger closed-source
counterparts on the BFCL V3 benchmark and push the Pareto frontier forward on
MCP-Universe Bench.