TOUCAN: Síntesis de 1.5 Millones de Datos de Herramientas-Agénticas a partir de Entornos MCP del Mundo Real

Resumen

Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) están surgiendo rápidamente como sistemas potentes para automatizar tareas en diversos dominios. Sin embargo, el progreso en la comunidad de código abierto se ve limitado por la falta de datos de entrenamiento de alta calidad y con licencias permisivas para agentes que utilizan herramientas. Los conjuntos de datos existentes suelen ser limitados en diversidad, realismo y complejidad, especialmente en lo que respecta a interacciones multiherramienta y de múltiples turnos. Para abordar esta brecha, presentamos Toucan, el conjunto de datos de agentes que utilizan herramientas más grande disponible públicamente hasta la fecha, que contiene 1.5 millones de trayectorias sintetizadas a partir de casi 500 Protocolos de Contexto de Modelo (MCP, por sus siglas en inglés) del mundo real. A diferencia de trabajos anteriores, Toucan aprovecha entornos auténticos de MCP para generar tareas diversas, realistas y desafiantes con trayectorias que involucran la ejecución real de herramientas. Nuestro pipeline primero produce un amplio espectro de consultas de uso de herramientas utilizando cinco modelos distintos, aplica un filtrado de calidad basado en modelos y luego genera trayectorias de agentes con tres modelos maestros utilizando dos marcos de agentes. Una validación rigurosa basada en reglas y modelos asegura salidas de alta calidad. También introducimos tres mecanismos de extensión para diversificar aún más las tareas y simular conversaciones de múltiples turnos. Los modelos ajustados en Toucan superan a contrapartes más grandes de código cerrado en el benchmark BFCL V3 y avanzan la frontera de Pareto en MCP-Universe Bench.

English

Large Language Model (LLM) agents are rapidly emerging as powerful systems for automating tasks across domains. Yet progress in the open-source community is constrained by the lack of high quality permissively licensed tool-agentic training data. Existing datasets are often limited in diversity, realism, and complexity, particularly regarding multi-tool and multi-turn interactions. To address this gap, we introduce Toucan, the largest publicly available tool-agentic dataset to date, containing 1.5 million trajectories synthesized from nearly 500 real-world Model Context Protocols (MCPs). Unlike prior work, Toucan leverages authentic MCP environments to generate diverse, realistic, and challenging tasks with trajectories involving real tool execution. Our pipeline first produces a broad spectrum of tool-use queries using five distinct models, applies model-based quality filtering, and then generates agentic trajectories with three teacher models using two agentic frameworks. Rigorous rule-based and model-based validation ensures high-quality outputs. We also introduce three extension mechanisms to further diversify tasks and simulate multi-turn conversations. Models fine-tuned on Toucan outperform larger closed-source counterparts on the BFCL V3 benchmark and push the Pareto frontier forward on MCP-Universe Bench.

TOUCAN: Síntesis de 1.5 Millones de Datos de Herramientas-Agénticas a partir de Entornos MCP del Mundo Real

TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments

Resumen

Support