APIGen: Pipeline Automatizado para Gerar Conjuntos de Dados Verificáveis e Diversificados de Chamadas de Funções
APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets
June 26, 2024
Autores: Zuxin Liu, Thai Hoang, Jianguo Zhang, Ming Zhu, Tian Lan, Shirley Kokane, Juntao Tan, Weiran Yao, Zhiwei Liu, Yihao Feng, Rithesh Murthy, Liangwei Yang, Silvio Savarese, Juan Carlos Niebles, Huan Wang, Shelby Heinecke, Caiming Xiong
cs.AI
Resumo
O avanço dos modelos de agentes de chamada de função requer conjuntos de dados diversos, confiáveis e de alta qualidade. Este artigo apresenta o APIGen, um pipeline automatizado de geração de dados projetado para sintetizar conjuntos de dados verificáveis de alta qualidade para aplicações de chamada de função. Nós utilizamos o APIGen e coletamos 3.673 APIs executáveis em 21 categorias diferentes para gerar conjuntos de dados de chamada de função diversos de forma escalável e estruturada. Cada dado em nosso conjunto de dados é verificado por meio de três etapas hierárquicas: verificação de formato, execuções reais de função e verificação semântica, garantindo sua confiabilidade e correção. Demonstramos que modelos treinados com nossos conjuntos de dados curados, mesmo com apenas 7 bilhões de parâmetros, podem alcançar desempenho de ponta no Berkeley Function-Calling Benchmark, superando vários modelos GPT-4. Além disso, nosso modelo de 1 bilhão de parâmetros alcança desempenho excepcional, superando o GPT-3.5-Turbo e o Claude-3 Haiku. Lançamos um conjunto de dados contendo 60.000 entradas de alta qualidade, com o objetivo de avançar no campo dos domínios de agentes de chamada de função. O conjunto de dados está disponível no Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k e na página inicial do projeto: https://apigen-pipeline.github.io/
English
The advancement of function-calling agent models requires diverse, reliable,
and high-quality datasets. This paper presents APIGen, an automated data
generation pipeline designed to synthesize verifiable high-quality datasets for
function-calling applications. We leverage APIGen and collect 3,673 executable
APIs across 21 different categories to generate diverse function-calling
datasets in a scalable and structured manner. Each data in our dataset is
verified through three hierarchical stages: format checking, actual function
executions, and semantic verification, ensuring its reliability and
correctness. We demonstrate that models trained with our curated datasets, even
with only 7B parameters, can achieve state-of-the-art performance on the
Berkeley Function-Calling Benchmark, outperforming multiple GPT-4 models.
Moreover, our 1B model achieves exceptional performance, surpassing
GPT-3.5-Turbo and Claude-3 Haiku. We release a dataset containing 60,000
high-quality entries, aiming to advance the field of function-calling agent
domains. The dataset is available on Huggingface:
https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k and the
project homepage: https://apigen-pipeline.github.io/