TPTU-v2: Verbetering van Taakplanning en Gereedschapsgebruik van op Grote Taalmodellen Gebaseerde Agents in Real-world Systemen
TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems
November 19, 2023
Auteurs: Yilun Kong, Jingqing Ruan, Yihong Chen, Bin Zhang, Tianpeng Bao, Shiwei Shi, Guoqing Du, Xiaoru Hu, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben hun vaardigheid aangetoond in het aanpakken van taken die een combinatie vereisen van taakplanning en het gebruik van externe tools, zoals API's. Echter, complexe systemen in de praktijk brengen drie veelvoorkomende uitdagingen met zich mee op het gebied van taakplanning en toolgebruik: (1) Het echte systeem heeft meestal een groot aantal API's, waardoor het onmogelijk is om de beschrijvingen van alle API's in de prompt van LLMs te voeren, aangezien de tokenlengte beperkt is; (2) het echte systeem is ontworpen voor het afhandelen van complexe taken, en de basis-LLMs kunnen nauwelijks een correcte volgorde van subtaken en API-aanroepen plannen voor dergelijke taken; (3) Gelijksoortige semantiek en functionaliteiten tussen API's in echte systemen creëren uitdagingen voor zowel LLMs als zelfs mensen om ze van elkaar te onderscheiden. Als reactie hierop introduceert dit artikel een uitgebreid raamwerk dat gericht is op het verbeteren van de Taakplanning en Toolgebruik (TPTU) vaardigheden van LLM-gebaseerde agents die opereren binnen echte systemen. Ons raamwerk bestaat uit drie belangrijke componenten die ontworpen zijn om deze uitdagingen aan te pakken: (1) de API Retriever selecteert de meest relevante API's voor de gebruikers taak uit de uitgebreide beschikbare reeks; (2) de LLM Finetuner stemt een basis-LLM af zodat de afgestemde LLM beter in staat is voor taakplanning en API-aanroepen; (3) de Demo Selector haalt adaptief verschillende demonstraties op die gerelateerd zijn aan moeilijk te onderscheiden API's, wat verder gebruikt wordt voor in-context leren om de uiteindelijke prestaties te verbeteren. We valideren onze methoden met behulp van een commercieel systeem uit de praktijk en een open-source academische dataset, en de resultaten tonen duidelijk de effectiviteit aan van elk individueel component evenals het geïntegreerde raamwerk.
English
Large Language Models (LLMs) have demonstrated proficiency in addressing
tasks that necessitate a combination of task planning and the usage of external
tools that require a blend of task planning and the utilization of external
tools, such as APIs. However, real-world complex systems present three
prevalent challenges concerning task planning and tool usage: (1) The real
system usually has a vast array of APIs, so it is impossible to feed the
descriptions of all APIs to the prompt of LLMs as the token length is limited;
(2) the real system is designed for handling complex tasks, and the base LLMs
can hardly plan a correct sub-task order and API-calling order for such tasks;
(3) Similar semantics and functionalities among APIs in real systems create
challenges for both LLMs and even humans in distinguishing between them. In
response, this paper introduces a comprehensive framework aimed at enhancing
the Task Planning and Tool Usage (TPTU) abilities of LLM-based agents operating
within real-world systems. Our framework comprises three key components
designed to address these challenges: (1) the API Retriever selects the most
pertinent APIs for the user task among the extensive array available; (2) LLM
Finetuner tunes a base LLM so that the finetuned LLM can be more capable for
task planning and API calling; (3) the Demo Selector adaptively retrieves
different demonstrations related to hard-to-distinguish APIs, which is further
used for in-context learning to boost the final performance. We validate our
methods using a real-world commercial system as well as an open-sourced
academic dataset, and the outcomes clearly showcase the efficacy of each
individual component as well as the integrated framework.