APIGen: Pipeline Automatico per la Generazione di Dataset Verificabili e Diversificati per il Richiamo di Funzioni

Abstract

Il progresso dei modelli di agenti per il richiamo di funzioni richiede dataset diversificati, affidabili e di alta qualità. Questo articolo presenta APIGen, una pipeline automatizzata per la generazione di dati progettata per sintetizzare dataset verificabili e di alta qualità per applicazioni di richiamo di funzioni. Utilizziamo APIGen e raccogliamo 3.673 API eseguibili in 21 diverse categorie per generare dataset di richiamo di funzioni in modo scalabile e strutturato. Ogni dato nel nostro dataset viene verificato attraverso tre fasi gerarchiche: controllo del formato, esecuzione effettiva delle funzioni e verifica semantica, garantendone l'affidabilità e la correttezza. Dimostriamo che i modelli addestrati con i nostri dataset curati, anche con soli 7 miliardi di parametri, possono raggiungere prestazioni all'avanguardia sul Berkeley Function-Calling Benchmark, superando diversi modelli GPT-4. Inoltre, il nostro modello da 1 miliardo di parametri ottiene prestazioni eccezionali, superando GPT-3.5-Turbo e Claude-3 Haiku. Rilasciamo un dataset contenente 60.000 voci di alta qualità, con l'obiettivo di far progredire il campo dei domini degli agenti per il richiamo di funzioni. Il dataset è disponibile su Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k e sulla homepage del progetto: https://apigen-pipeline.github.io/.

English

The advancement of function-calling agent models requires diverse, reliable, and high-quality datasets. This paper presents APIGen, an automated data generation pipeline designed to synthesize verifiable high-quality datasets for function-calling applications. We leverage APIGen and collect 3,673 executable APIs across 21 different categories to generate diverse function-calling datasets in a scalable and structured manner. Each data in our dataset is verified through three hierarchical stages: format checking, actual function executions, and semantic verification, ensuring its reliability and correctness. We demonstrate that models trained with our curated datasets, even with only 7B parameters, can achieve state-of-the-art performance on the Berkeley Function-Calling Benchmark, outperforming multiple GPT-4 models. Moreover, our 1B model achieves exceptional performance, surpassing GPT-3.5-Turbo and Claude-3 Haiku. We release a dataset containing 60,000 high-quality entries, aiming to advance the field of function-calling agent domains. The dataset is available on Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k and the project homepage: https://apigen-pipeline.github.io/

APIGen: Pipeline Automatico per la Generazione di Dataset Verificabili e Diversificati per il Richiamo di Funzioni

APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets

Abstract

Support