APIGen: Pipeline Automatizado para Gerar Conjuntos de Dados Verificáveis e Diversificados de Chamadas de Funções

Resumo

O avanço dos modelos de agentes de chamada de função requer conjuntos de dados diversos, confiáveis e de alta qualidade. Este artigo apresenta o APIGen, um pipeline automatizado de geração de dados projetado para sintetizar conjuntos de dados verificáveis de alta qualidade para aplicações de chamada de função. Nós utilizamos o APIGen e coletamos 3.673 APIs executáveis em 21 categorias diferentes para gerar conjuntos de dados de chamada de função diversos de forma escalável e estruturada. Cada dado em nosso conjunto de dados é verificado por meio de três etapas hierárquicas: verificação de formato, execuções reais de função e verificação semântica, garantindo sua confiabilidade e correção. Demonstramos que modelos treinados com nossos conjuntos de dados curados, mesmo com apenas 7 bilhões de parâmetros, podem alcançar desempenho de ponta no Berkeley Function-Calling Benchmark, superando vários modelos GPT-4. Além disso, nosso modelo de 1 bilhão de parâmetros alcança desempenho excepcional, superando o GPT-3.5-Turbo e o Claude-3 Haiku. Lançamos um conjunto de dados contendo 60.000 entradas de alta qualidade, com o objetivo de avançar no campo dos domínios de agentes de chamada de função. O conjunto de dados está disponível no Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k e na página inicial do projeto: https://apigen-pipeline.github.io/

English

The advancement of function-calling agent models requires diverse, reliable, and high-quality datasets. This paper presents APIGen, an automated data generation pipeline designed to synthesize verifiable high-quality datasets for function-calling applications. We leverage APIGen and collect 3,673 executable APIs across 21 different categories to generate diverse function-calling datasets in a scalable and structured manner. Each data in our dataset is verified through three hierarchical stages: format checking, actual function executions, and semantic verification, ensuring its reliability and correctness. We demonstrate that models trained with our curated datasets, even with only 7B parameters, can achieve state-of-the-art performance on the Berkeley Function-Calling Benchmark, outperforming multiple GPT-4 models. Moreover, our 1B model achieves exceptional performance, surpassing GPT-3.5-Turbo and Claude-3 Haiku. We release a dataset containing 60,000 high-quality entries, aiming to advance the field of function-calling agent domains. The dataset is available on Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k and the project homepage: https://apigen-pipeline.github.io/

APIGen: Pipeline Automatizado para Gerar Conjuntos de Dados Verificáveis e Diversificados de Chamadas de Funções

APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets

Resumo

Support