APIGen: Geautomatiseerde Pipeline voor het Genereren van Verifieerbare en Diverse Functieaanroep-datasets

Samenvatting

De vooruitgang van function-calling agent-modellen vereist diverse, betrouwbare en hoogwaardige datasets. Dit artikel presenteert APIGen, een geautomatiseerde datageneratiepijplijn die is ontworpen om verifieerbare, hoogwaardige datasets te synthetiseren voor function-calling toepassingen. We benutten APIGen en verzamelen 3.673 uitvoerbare API's in 21 verschillende categorieën om op een schaalbare en gestructureerde manier diverse function-calling datasets te genereren. Elke data in onze dataset wordt geverifieerd via drie hiërarchische fasen: formaatcontrole, daadwerkelijke functie-uitvoeringen en semantische verificatie, waardoor de betrouwbaarheid en correctheid worden gewaarborgd. We tonen aan dat modellen die zijn getraind met onze samengestelde datasets, zelfs met slechts 7B parameters, state-of-the-art prestaties kunnen bereiken op de Berkeley Function-Calling Benchmark, waarbij ze meerdere GPT-4-modellen overtreffen. Bovendien behaalt ons 1B-model uitzonderlijke prestaties, waarbij het GPT-3.5-Turbo en Claude-3 Haiku overtreft. We publiceren een dataset met 60.000 hoogwaardige entries, met als doel het vakgebied van function-calling agent-domeinen vooruit te helpen. De dataset is beschikbaar op Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k en de projecthomepage: https://apigen-pipeline.github.io/.

English

The advancement of function-calling agent models requires diverse, reliable, and high-quality datasets. This paper presents APIGen, an automated data generation pipeline designed to synthesize verifiable high-quality datasets for function-calling applications. We leverage APIGen and collect 3,673 executable APIs across 21 different categories to generate diverse function-calling datasets in a scalable and structured manner. Each data in our dataset is verified through three hierarchical stages: format checking, actual function executions, and semantic verification, ensuring its reliability and correctness. We demonstrate that models trained with our curated datasets, even with only 7B parameters, can achieve state-of-the-art performance on the Berkeley Function-Calling Benchmark, outperforming multiple GPT-4 models. Moreover, our 1B model achieves exceptional performance, surpassing GPT-3.5-Turbo and Claude-3 Haiku. We release a dataset containing 60,000 high-quality entries, aiming to advance the field of function-calling agent domains. The dataset is available on Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k and the project homepage: https://apigen-pipeline.github.io/

APIGen: Geautomatiseerde Pipeline voor het Genereren van Verifieerbare en Diverse Functieaanroep-datasets

APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets

Samenvatting

Support