APIGen-MT: Tubería Agéntica para la Generación de Datos Multiturno mediante la Simulación de Interacción Agente-Humano
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay
April 4, 2025
Autores: Akshara Prabhakar, Zuxin Liu, Weiran Yao, Jianguo Zhang, Ming Zhu, Shiyu Wang, Zhiwei Liu, Tulika Awalgaonkar, Haolin Chen, Thai Hoang, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Resumen
Entrenar agentes de IA efectivos para interacciones de múltiples turnos requiere datos de alta calidad que capturen dinámicas realistas entre humanos y agentes, sin embargo, dichos datos son escasos y costosos de recolectar manualmente. Presentamos APIGen-MT, un marco de trabajo de dos fases que genera datos verificables y diversos para agentes de múltiples turnos. En la primera fase, nuestra pipeline agentiva produce planos detallados de tareas con acciones de referencia, aprovechando un comité de revisores basados en LLM y bucles de retroalimentación iterativos. Estos planos se transforman luego en trayectorias completas de interacción mediante la simulación de interacciones humano-agente. Entrenamos una familia de modelos —la serie xLAM-2-fc-r con tamaños que van desde 1B hasta 70B parámetros—. Nuestros modelos superan a modelos de vanguardia como GPT-4o y Claude 3.5 en los benchmarks tau-bench y BFCL, con los modelos más pequeños superando a sus contrapartes más grandes, especialmente en configuraciones de múltiples turnos, mientras mantienen una consistencia superior en múltiples pruebas. Experimentos exhaustivos demuestran que nuestro enfoque verificado de plano-a-detalles produce datos de entrenamiento de alta calidad, permitiendo el desarrollo de agentes más confiables, eficientes y capaces. Liberamos tanto los datos sintéticos recolectados como los modelos entrenados xLAM-2-fc-r para avanzar la investigación en agentes de IA. Los modelos están disponibles en HuggingFace en https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 y el sitio web del proyecto es https://apigen-mt.github.io.
English
Training effective AI agents for multi-turn interactions requires
high-quality data that captures realistic human-agent dynamics, yet such data
is scarce and expensive to collect manually. We introduce APIGen-MT, a
two-phase framework that generates verifiable and diverse multi-turn agent
data. In the first phase, our agentic pipeline produces detailed task
blueprints with ground-truth actions, leveraging a committee of LLM reviewers
and iterative feedback loops. These blueprints are then transformed into
complete interaction trajectories through simulated human-agent interplay. We
train a family of models -- the xLAM-2-fc-r series with sizes ranging from 1B
to 70B parameters. Our models outperform frontier models such as GPT-4o and
Claude 3.5 on tau-bench and BFCL benchmarks, with the smaller models
surpassing their larger counterparts, particularly in multi-turn settings,
while maintaining superior consistency across multiple trials. Comprehensive
experiments demonstrate that our verified blueprint-to-details approach yields
high-quality training data, enabling the development of more reliable,
efficient, and capable agents. We open-source both the synthetic data collected
and the trained xLAM-2-fc-r models to advance research in AI agents. Models are
available on HuggingFace at
https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4
and project website is https://apigen-mt.github.ioSummary
AI-Generated Summary