APIGen: Automatisierte Pipeline zur Erzeugung verifizierbarer und vielfältiger Datensätze für Funktionsaufrufe

papers.abstract

Die Weiterentwicklung von Agentenmodellen für die Funktionsaufruf erfordert vielfältige, zuverlässige und hochwertige Datensätze. Dieses Papier stellt APIGen vor, eine automatisierte Datengenerierungspipeline, die darauf abzielt, überprüfbare hochwertige Datensätze für Funktionsaufrufanwendungen zu synthetisieren. Wir nutzen APIGen und sammeln 3.673 ausführbare APIs in 21 verschiedenen Kategorien, um vielfältige Funktionsaufrufdatensätze auf skalierbare und strukturierte Weise zu generieren. Jeder Datensatz in unserem Datensatz wird durch drei hierarchische Stufen überprüft: Formatüberprüfung, tatsächliche Funktionsausführungen und semantische Verifizierung, um dessen Zuverlässigkeit und Korrektheit sicherzustellen. Wir zeigen, dass Modelle, die mit unseren kuratierten Datensätzen trainiert wurden, selbst mit nur 7 Milliarden Parametern, Spitzenleistungen im Berkeley Function-Calling Benchmark erzielen können und mehrere GPT-4-Modelle übertreffen. Darüber hinaus erreicht unser 1-Milliarden-Modell eine außergewöhnliche Leistung und übertrifft GPT-3.5-Turbo und Claude-3 Haiku. Wir veröffentlichen einen Datensatz mit 60.000 hochwertigen Einträgen, um das Gebiet der Funktionsaufruf-Agentendomänen voranzubringen. Der Datensatz ist auf Huggingface verfügbar: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k und der Projekt-Homepage: https://apigen-pipeline.github.io/

English

The advancement of function-calling agent models requires diverse, reliable, and high-quality datasets. This paper presents APIGen, an automated data generation pipeline designed to synthesize verifiable high-quality datasets for function-calling applications. We leverage APIGen and collect 3,673 executable APIs across 21 different categories to generate diverse function-calling datasets in a scalable and structured manner. Each data in our dataset is verified through three hierarchical stages: format checking, actual function executions, and semantic verification, ensuring its reliability and correctness. We demonstrate that models trained with our curated datasets, even with only 7B parameters, can achieve state-of-the-art performance on the Berkeley Function-Calling Benchmark, outperforming multiple GPT-4 models. Moreover, our 1B model achieves exceptional performance, surpassing GPT-3.5-Turbo and Claude-3 Haiku. We release a dataset containing 60,000 high-quality entries, aiming to advance the field of function-calling agent domains. The dataset is available on Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k and the project homepage: https://apigen-pipeline.github.io/

APIGen: Automatisierte Pipeline zur Erzeugung verifizierbarer und vielfältiger Datensätze für Funktionsaufrufe

APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets

papers.abstract

Support