APIGen-MT: Pipeline Agente para Geração de Dados Multi-Turn por meio de Interação Simulada entre Agente e Humano

Resumo

Treinar agentes de IA eficazes para interações multi-turn exige dados de alta qualidade que capturem dinâmicas realistas entre humanos e agentes, mas tais dados são escassos e caros de coletar manualmente. Apresentamos o APIGen-MT, um framework de duas fases que gera dados de agentes multi-turn verificáveis e diversos. Na primeira fase, nosso pipeline agentivo produz planos detalhados de tarefas com ações de referência, aproveitando um comitê de revisores de LLM e loops de feedback iterativos. Esses planos são então transformados em trajetórias completas de interação por meio de simulações de interação humano-agente. Treinamos uma família de modelos — a série xLAM-2-fc-r com tamanhos variando de 1B a 70B parâmetros. Nossos modelos superam modelos de ponta como GPT-4o e Claude 3.5 nos benchmarks tau-bench e BFCL, com os modelos menores superando seus equivalentes maiores, especialmente em cenários multi-turn, enquanto mantêm consistência superior em múltiplas tentativas. Experimentos abrangentes demonstram que nossa abordagem verificada de plano-para-detalhes produz dados de treinamento de alta qualidade, permitindo o desenvolvimento de agentes mais confiáveis, eficientes e capazes. Disponibilizamos tanto os dados sintéticos coletados quanto os modelos xLAM-2-fc-r treinados como código aberto para avançar a pesquisa em agentes de IA. Os modelos estão disponíveis no HuggingFace em https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 e o site do projeto é https://apigen-mt.github.io.

English

Training effective AI agents for multi-turn interactions requires high-quality data that captures realistic human-agent dynamics, yet such data is scarce and expensive to collect manually. We introduce APIGen-MT, a two-phase framework that generates verifiable and diverse multi-turn agent data. In the first phase, our agentic pipeline produces detailed task blueprints with ground-truth actions, leveraging a committee of LLM reviewers and iterative feedback loops. These blueprints are then transformed into complete interaction trajectories through simulated human-agent interplay. We train a family of models -- the xLAM-2-fc-r series with sizes ranging from 1B to 70B parameters. Our models outperform frontier models such as GPT-4o and Claude 3.5 on tau-bench and BFCL benchmarks, with the smaller models surpassing their larger counterparts, particularly in multi-turn settings, while maintaining superior consistency across multiple trials. Comprehensive experiments demonstrate that our verified blueprint-to-details approach yields high-quality training data, enabling the development of more reliable, efficient, and capable agents. We open-source both the synthetic data collected and the trained xLAM-2-fc-r models to advance research in AI agents. Models are available on HuggingFace at https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 and project website is https://apigen-mt.github.io

APIGen-MT: Pipeline Agente para Geração de Dados Multi-Turn por meio de Interação Simulada entre Agente e Humano

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

Resumo

Summary

Support

Support