APIGen : Pipeline automatisé pour la génération de jeux de données vérifiables et diversifiés pour l'appel de fonctions
APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets
June 26, 2024
Auteurs: Zuxin Liu, Thai Hoang, Jianguo Zhang, Ming Zhu, Tian Lan, Shirley Kokane, Juntao Tan, Weiran Yao, Zhiwei Liu, Yihao Feng, Rithesh Murthy, Liangwei Yang, Silvio Savarese, Juan Carlos Niebles, Huan Wang, Shelby Heinecke, Caiming Xiong
cs.AI
Résumé
Le progrès des modèles d'agents d'appel de fonctions nécessite des ensembles de données diversifiés, fiables et de haute qualité. Cet article présente APIGen, un pipeline automatisé de génération de données conçu pour synthétiser des ensembles de données vérifiables et de haute qualité pour les applications d'appel de fonctions. Nous exploitons APIGen et collectons 3 673 API exécutables réparties dans 21 catégories différentes pour générer des ensembles de données d'appel de fonctions de manière structurée et évolutive. Chaque donnée de notre ensemble est vérifiée à travers trois étapes hiérarchiques : vérification du format, exécutions réelles des fonctions et vérification sémantique, garantissant ainsi sa fiabilité et son exactitude. Nous démontrons que les modèles entraînés avec nos ensembles de données, même avec seulement 7 milliards de paramètres, peuvent atteindre des performances de pointe sur le Berkeley Function-Calling Benchmark, surpassant plusieurs modèles GPT-4. De plus, notre modèle de 1 milliard de paramètres obtient des performances exceptionnelles, dépassant GPT-3.5-Turbo et Claude-3 Haiku. Nous publions un ensemble de données contenant 60 000 entrées de haute qualité, visant à faire progresser le domaine des agents d'appel de fonctions. L'ensemble de données est disponible sur Huggingface : https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k et sur la page d'accueil du projet : https://apigen-pipeline.github.io/
English
The advancement of function-calling agent models requires diverse, reliable,
and high-quality datasets. This paper presents APIGen, an automated data
generation pipeline designed to synthesize verifiable high-quality datasets for
function-calling applications. We leverage APIGen and collect 3,673 executable
APIs across 21 different categories to generate diverse function-calling
datasets in a scalable and structured manner. Each data in our dataset is
verified through three hierarchical stages: format checking, actual function
executions, and semantic verification, ensuring its reliability and
correctness. We demonstrate that models trained with our curated datasets, even
with only 7B parameters, can achieve state-of-the-art performance on the
Berkeley Function-Calling Benchmark, outperforming multiple GPT-4 models.
Moreover, our 1B model achieves exceptional performance, surpassing
GPT-3.5-Turbo and Claude-3 Haiku. We release a dataset containing 60,000
high-quality entries, aiming to advance the field of function-calling agent
domains. The dataset is available on Huggingface:
https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k and the
project homepage: https://apigen-pipeline.github.io/Summary
AI-Generated Summary