TPTU-v2 : Amélioration de la planification des tâches et de l'utilisation des outils pour les agents basés sur des modèles de langage de grande taille dans les systèmes du monde réel
TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems
November 19, 2023
Auteurs: Yilun Kong, Jingqing Ruan, Yihong Chen, Bin Zhang, Tianpeng Bao, Shiwei Shi, Guoqing Du, Xiaoru Hu, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré leur aptitude à traiter des tâches nécessitant une combinaison de planification de tâches et d'utilisation d'outils externes, tels que des API. Cependant, les systèmes complexes du monde réel posent trois défis majeurs concernant la planification des tâches et l'utilisation des outils : (1) Le système réel dispose généralement d'un vaste éventail d'API, ce qui rend impossible l'intégration des descriptions de toutes les API dans l'invite des LLMs en raison de la limitation de la longueur des tokens ; (2) Le système réel est conçu pour gérer des tâches complexes, et les LLMs de base peinent à planifier un ordre correct de sous-tâches et d'appels d'API pour de telles tâches ; (3) Les similarités sémantiques et fonctionnelles entre les API dans les systèmes réels créent des difficultés pour les LLMs, et même pour les humains, à les distinguer. En réponse, cet article propose un cadre complet visant à améliorer les capacités de Planification des Tâches et d'Utilisation des Outils (TPTU) des agents basés sur LLM opérant dans des systèmes du monde réel. Notre cadre comprend trois composants clés conçus pour relever ces défis : (1) le Récupérateur d'API sélectionne les API les plus pertinentes pour la tâche de l'utilisateur parmi la multitude disponible ; (2) le Fine-tuneur de LLM ajuste un LLM de base afin que le LLM ajusté soit plus compétent pour la planification des tâches et l'appel d'API ; (3) le Sélecteur de Démonstrations récupère de manière adaptative différentes démonstrations liées aux API difficiles à distinguer, qui sont ensuite utilisées pour l'apprentissage en contexte afin d'améliorer les performances finales. Nous validons nos méthodes à l'aide d'un système commercial réel ainsi que d'un ensemble de données académiques open-source, et les résultats mettent clairement en évidence l'efficacité de chaque composant individuel ainsi que du cadre intégré.
English
Large Language Models (LLMs) have demonstrated proficiency in addressing
tasks that necessitate a combination of task planning and the usage of external
tools that require a blend of task planning and the utilization of external
tools, such as APIs. However, real-world complex systems present three
prevalent challenges concerning task planning and tool usage: (1) The real
system usually has a vast array of APIs, so it is impossible to feed the
descriptions of all APIs to the prompt of LLMs as the token length is limited;
(2) the real system is designed for handling complex tasks, and the base LLMs
can hardly plan a correct sub-task order and API-calling order for such tasks;
(3) Similar semantics and functionalities among APIs in real systems create
challenges for both LLMs and even humans in distinguishing between them. In
response, this paper introduces a comprehensive framework aimed at enhancing
the Task Planning and Tool Usage (TPTU) abilities of LLM-based agents operating
within real-world systems. Our framework comprises three key components
designed to address these challenges: (1) the API Retriever selects the most
pertinent APIs for the user task among the extensive array available; (2) LLM
Finetuner tunes a base LLM so that the finetuned LLM can be more capable for
task planning and API calling; (3) the Demo Selector adaptively retrieves
different demonstrations related to hard-to-distinguish APIs, which is further
used for in-context learning to boost the final performance. We validate our
methods using a real-world commercial system as well as an open-sourced
academic dataset, and the outcomes clearly showcase the efficacy of each
individual component as well as the integrated framework.