APIGen-MT: Агентный конвейер для генерации многоходовых данных через моделирование взаимодействия агента и человека

Аннотация

Обучение эффективных ИИ-агентов для многоходовых взаимодействий требует высококачественных данных, которые отражают реалистичную динамику между человеком и агентом, однако такие данные редки и дорогостоящи для ручного сбора. Мы представляем APIGen-MT, двухэтапную структуру, которая генерирует проверяемые и разнообразные данные для многоходовых агентов. На первом этапе наш агентский конвейер создает детальные планы задач с истинными действиями, используя комитет рецензентов на основе больших языковых моделей (LLM) и итеративные циклы обратной связи. Эти планы затем преобразуются в полные траектории взаимодействия через симулированное взаимодействие человека и агента. Мы обучаем семейство моделей — серию xLAM-2-fc-r с размерами от 1B до 70B параметров. Наши модели превосходят передовые модели, такие как GPT-4o и Claude 3.5, на бенчмарках tau-bench и BFCL, причем меньшие модели обходят своих более крупных собратьев, особенно в многоходовых сценариях, сохраняя при этом превосходную согласованность в нескольких испытаниях. Комплексные эксперименты демонстрируют, что наш проверенный подход от плана к деталям обеспечивает высококачественные обучающие данные, что позволяет разрабатывать более надежных, эффективных и способных агентов. Мы открываем исходный код как для собранных синтетических данных, так и для обученных моделей xLAM-2-fc-r, чтобы способствовать исследованиям в области ИИ-агентов. Модели доступны на HuggingFace по ссылке https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4, а проект представлен на сайте https://apigen-mt.github.io.

English

Training effective AI agents for multi-turn interactions requires high-quality data that captures realistic human-agent dynamics, yet such data is scarce and expensive to collect manually. We introduce APIGen-MT, a two-phase framework that generates verifiable and diverse multi-turn agent data. In the first phase, our agentic pipeline produces detailed task blueprints with ground-truth actions, leveraging a committee of LLM reviewers and iterative feedback loops. These blueprints are then transformed into complete interaction trajectories through simulated human-agent interplay. We train a family of models -- the xLAM-2-fc-r series with sizes ranging from 1B to 70B parameters. Our models outperform frontier models such as GPT-4o and Claude 3.5 on tau-bench and BFCL benchmarks, with the smaller models surpassing their larger counterparts, particularly in multi-turn settings, while maintaining superior consistency across multiple trials. Comprehensive experiments demonstrate that our verified blueprint-to-details approach yields high-quality training data, enabling the development of more reliable, efficient, and capable agents. We open-source both the synthetic data collected and the trained xLAM-2-fc-r models to advance research in AI agents. Models are available on HuggingFace at https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 and project website is https://apigen-mt.github.io

APIGen-MT: Агентный конвейер для генерации многоходовых данных через моделирование взаимодействия агента и человека

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

Аннотация

Support