TOUCAN: Síntese de 1,5 Milhão de Dados de Ferramentas-Agentes a partir de Ambientes MCP do Mundo Real
TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments
October 1, 2025
Autores: Zhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda
cs.AI
Resumo
Agentes de Modelos de Linguagem de Grande Escala (LLM) estão emergindo rapidamente como sistemas poderosos para automatizar tarefas em diversos domínios. No entanto, o progresso na comunidade de código aberto é limitado pela falta de dados de treinamento de alta qualidade e licenciados de forma permissiva para agentes que utilizam ferramentas. Os conjuntos de dados existentes frequentemente apresentam limitações em diversidade, realismo e complexidade, especialmente no que diz respeito a interações com múltiplas ferramentas e múltiplos turnos. Para abordar essa lacuna, apresentamos Toucan, o maior conjunto de dados de agentes que utilizam ferramentas disponível publicamente até o momento, contendo 1,5 milhão de trajetórias sintetizadas a partir de quase 500 Protocolos de Contexto de Modelo (MCPs) do mundo real. Diferente de trabalhos anteriores, o Toucan aproveita ambientes autênticos de MCPs para gerar tarefas diversas, realistas e desafiadoras, com trajetórias que envolvem a execução real de ferramentas. Nosso pipeline primeiro produz uma ampla gama de consultas de uso de ferramentas utilizando cinco modelos distintos, aplica filtragem de qualidade baseada em modelos e, em seguida, gera trajetórias de agentes com três modelos de referência utilizando dois frameworks de agentes. Validações rigorosas baseadas em regras e modelos garantem saídas de alta qualidade. Também introduzimos três mecanismos de extensão para diversificar ainda mais as tarefas e simular conversas com múltiplos turnos. Modelos ajustados com o Toucan superam contrapartes maiores de código fechado no benchmark BFCL V3 e avançam a fronteira de Pareto no MCP-Universe Bench.
English
Large Language Model (LLM) agents are rapidly emerging as powerful systems
for automating tasks across domains. Yet progress in the open-source community
is constrained by the lack of high quality permissively licensed tool-agentic
training data. Existing datasets are often limited in diversity, realism, and
complexity, particularly regarding multi-tool and multi-turn interactions. To
address this gap, we introduce Toucan, the largest publicly available
tool-agentic dataset to date, containing 1.5 million trajectories synthesized
from nearly 500 real-world Model Context Protocols (MCPs). Unlike prior work,
Toucan leverages authentic MCP environments to generate diverse, realistic, and
challenging tasks with trajectories involving real tool execution. Our pipeline
first produces a broad spectrum of tool-use queries using five distinct models,
applies model-based quality filtering, and then generates agentic trajectories
with three teacher models using two agentic frameworks. Rigorous rule-based and
model-based validation ensures high-quality outputs. We also introduce three
extension mechanisms to further diversify tasks and simulate multi-turn
conversations. Models fine-tuned on Toucan outperform larger closed-source
counterparts on the BFCL V3 benchmark and push the Pareto frontier forward on
MCP-Universe Bench.