ChatPaper.aiChatPaper

ToolLLM : Permettre aux grands modèles de langage de maîtriser plus de 16 000 API du monde réel

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

July 31, 2023
Auteurs: Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI

Résumé

Malgré les avancées des grands modèles de langage (LLM) open-source et de leurs variantes, comme LLaMA et Vicuna, ceux-ci restent significativement limités dans l'exécution de tâches de haut niveau, telles que suivre des instructions humaines pour utiliser des outils externes (APIs). Cela s'explique par le fait que l'ajustement par instruction actuel se concentre principalement sur des tâches linguistiques de base plutôt que sur le domaine de l'utilisation d'outils. Cela contraste avec les LLM de pointe (SOTA), comme ChatGPT, qui ont démontré d'excellentes capacités d'utilisation d'outils mais qui, malheureusement, sont fermés. Pour faciliter les capacités d'utilisation d'outils dans les LLM open-source, nous introduisons ToolLLM, un cadre général pour la construction de données, l'entraînement de modèles et l'évaluation dans le domaine de l'utilisation d'outils. Nous présentons d'abord ToolBench, un ensemble de données d'ajustement par instruction pour l'utilisation d'outils, créé automatiquement à l'aide de ChatGPT. Plus précisément, nous collectons 16 464 APIs RESTful réelles couvrant 49 catégories sur RapidAPI Hub, puis incitons ChatGPT à générer des instructions humaines variées impliquant ces APIs, couvrant à la fois des scénarios à un seul outil et à plusieurs outils. Enfin, nous utilisons ChatGPT pour rechercher un chemin de solution valide (chaîne d'appels d'API) pour chaque instruction. Pour rendre le processus de recherche plus efficace, nous développons un arbre de décision basé sur une recherche en profondeur (DFSDT), permettant aux LLM d'évaluer plusieurs traces de raisonnement et d'élargir l'espace de recherche. Nous montrons que DFSDT améliore significativement les capacités de planification et de raisonnement des LLM. Pour une évaluation efficace de l'utilisation d'outils, nous développons un évaluateur automatique : ToolEval. Nous affinons LLaMA sur ToolBench et obtenons ToolLLaMA. Notre ToolEval révèle que ToolLLaMA démontre une capacité remarquable à exécuter des instructions complexes et à généraliser à des APIs non vues, et présente des performances comparables à ChatGPT. Pour rendre le pipeline plus pratique, nous concevons un récupérateur d'API neuronal pour recommander les APIs appropriées pour chaque instruction, éliminant ainsi le besoin d'une sélection manuelle d'API.
English
Despite the advancements of open-source large language models (LLMs) and their variants, e.g., LLaMA and Vicuna, they remain significantly limited in performing higher-level tasks, such as following human instructions to use external tools (APIs). This is because current instruction tuning largely focuses on basic language tasks instead of the tool-use domain. This is in contrast to state-of-the-art (SOTA) LLMs, e.g., ChatGPT, which have demonstrated excellent tool-use capabilities but are unfortunately closed source. To facilitate tool-use capabilities within open-source LLMs, we introduce ToolLLM, a general tool-use framework of data construction, model training and evaluation. We first present ToolBench, an instruction-tuning dataset for tool use, which is created automatically using ChatGPT. Specifically, we collect 16,464 real-world RESTful APIs spanning 49 categories from RapidAPI Hub, then prompt ChatGPT to generate diverse human instructions involving these APIs, covering both single-tool and multi-tool scenarios. Finally, we use ChatGPT to search for a valid solution path (chain of API calls) for each instruction. To make the searching process more efficient, we develop a novel depth-first search-based decision tree (DFSDT), enabling LLMs to evaluate multiple reasoning traces and expand the search space. We show that DFSDT significantly enhances the planning and reasoning capabilities of LLMs. For efficient tool-use assessment, we develop an automatic evaluator: ToolEval. We fine-tune LLaMA on ToolBench and obtain ToolLLaMA. Our ToolEval reveals that ToolLLaMA demonstrates a remarkable ability to execute complex instructions and generalize to unseen APIs, and exhibits comparable performance to ChatGPT. To make the pipeline more practical, we devise a neural API retriever to recommend appropriate APIs for each instruction, negating the need for manual API selection.
PDF1005December 15, 2024