APIGen-MT: Agentische Pipeline voor Multi-Turn Datageneratie via Gesimuleerde Agent-Mens Interactie
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay
April 4, 2025
Auteurs: Akshara Prabhakar, Zuxin Liu, Weiran Yao, Jianguo Zhang, Ming Zhu, Shiyu Wang, Zhiwei Liu, Tulika Awalgaonkar, Haolin Chen, Thai Hoang, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Samenvatting
Het trainen van effectieve AI-agenten voor multi-turn interacties vereist
hoogwaardige data die realistische mens-agent dynamieken vastlegt, maar dergelijke data
is schaars en duur om handmatig te verzamelen. Wij introduceren APIGen-MT, een
tweefasen framework dat verifieerbare en diverse multi-turn agentdata genereert. In de eerste fase
produceert onze agentische pipeline gedetailleerde taakblauwdrukken met grondwaarheidacties,
waarbij gebruik wordt gemaakt van een commissie van LLM-beoordelaars en iteratieve feedbackloops.
Deze blauwdrukken worden vervolgens omgezet in complete interactietrajecten door gesimuleerde
mens-agent interactie. We trainen een familie van modellen -- de xLAM-2-fc-r serie met groottes
variërend van 1B tot 70B parameters. Onze modellen overtreffen frontier modellen zoals GPT-4o en
Claude 3.5 op tau-bench en BFCL benchmarks, waarbij de kleinere modellen hun grotere tegenhangers
overtreffen, vooral in multi-turn settings, terwijl ze superieure consistentie behouden over
meerdere trials. Uitgebreide experimenten tonen aan dat onze geverifieerde blauwdruk-naar-details
aanpak hoogwaardige trainingsdata oplevert, waardoor de ontwikkeling van betrouwbaardere,
efficiëntere en capabelere agenten mogelijk wordt. We open-sourcen zowel de verzamelde synthetische
data als de getrainde xLAM-2-fc-r modellen om onderzoek naar AI-agenten te bevorderen. Modellen zijn
beschikbaar op HuggingFace via
https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4
en het projectwebsite is https://apigen-mt.github.io.
English
Training effective AI agents for multi-turn interactions requires
high-quality data that captures realistic human-agent dynamics, yet such data
is scarce and expensive to collect manually. We introduce APIGen-MT, a
two-phase framework that generates verifiable and diverse multi-turn agent
data. In the first phase, our agentic pipeline produces detailed task
blueprints with ground-truth actions, leveraging a committee of LLM reviewers
and iterative feedback loops. These blueprints are then transformed into
complete interaction trajectories through simulated human-agent interplay. We
train a family of models -- the xLAM-2-fc-r series with sizes ranging from 1B
to 70B parameters. Our models outperform frontier models such as GPT-4o and
Claude 3.5 on tau-bench and BFCL benchmarks, with the smaller models
surpassing their larger counterparts, particularly in multi-turn settings,
while maintaining superior consistency across multiple trials. Comprehensive
experiments demonstrate that our verified blueprint-to-details approach yields
high-quality training data, enabling the development of more reliable,
efficient, and capable agents. We open-source both the synthetic data collected
and the trained xLAM-2-fc-r models to advance research in AI agents. Models are
available on HuggingFace at
https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4
and project website is https://apigen-mt.github.ioSummary
AI-Generated Summary