TPTU-v2: Verbetering van Taakplanning en Gereedschapsgebruik van op Grote Taalmodellen Gebaseerde Agents in Real-world Systemen

Samenvatting

Grote Taalmodellen (LLMs) hebben hun vaardigheid aangetoond in het aanpakken van taken die een combinatie vereisen van taakplanning en het gebruik van externe tools, zoals API's. Echter, complexe systemen in de praktijk brengen drie veelvoorkomende uitdagingen met zich mee op het gebied van taakplanning en toolgebruik: (1) Het echte systeem heeft meestal een groot aantal API's, waardoor het onmogelijk is om de beschrijvingen van alle API's in de prompt van LLMs te voeren, aangezien de tokenlengte beperkt is; (2) het echte systeem is ontworpen voor het afhandelen van complexe taken, en de basis-LLMs kunnen nauwelijks een correcte volgorde van subtaken en API-aanroepen plannen voor dergelijke taken; (3) Gelijksoortige semantiek en functionaliteiten tussen API's in echte systemen creëren uitdagingen voor zowel LLMs als zelfs mensen om ze van elkaar te onderscheiden. Als reactie hierop introduceert dit artikel een uitgebreid raamwerk dat gericht is op het verbeteren van de Taakplanning en Toolgebruik (TPTU) vaardigheden van LLM-gebaseerde agents die opereren binnen echte systemen. Ons raamwerk bestaat uit drie belangrijke componenten die ontworpen zijn om deze uitdagingen aan te pakken: (1) de API Retriever selecteert de meest relevante API's voor de gebruikers taak uit de uitgebreide beschikbare reeks; (2) de LLM Finetuner stemt een basis-LLM af zodat de afgestemde LLM beter in staat is voor taakplanning en API-aanroepen; (3) de Demo Selector haalt adaptief verschillende demonstraties op die gerelateerd zijn aan moeilijk te onderscheiden API's, wat verder gebruikt wordt voor in-context leren om de uiteindelijke prestaties te verbeteren. We valideren onze methoden met behulp van een commercieel systeem uit de praktijk en een open-source academische dataset, en de resultaten tonen duidelijk de effectiviteit aan van elk individueel component evenals het geïntegreerde raamwerk.

English

Large Language Models (LLMs) have demonstrated proficiency in addressing tasks that necessitate a combination of task planning and the usage of external tools that require a blend of task planning and the utilization of external tools, such as APIs. However, real-world complex systems present three prevalent challenges concerning task planning and tool usage: (1) The real system usually has a vast array of APIs, so it is impossible to feed the descriptions of all APIs to the prompt of LLMs as the token length is limited; (2) the real system is designed for handling complex tasks, and the base LLMs can hardly plan a correct sub-task order and API-calling order for such tasks; (3) Similar semantics and functionalities among APIs in real systems create challenges for both LLMs and even humans in distinguishing between them. In response, this paper introduces a comprehensive framework aimed at enhancing the Task Planning and Tool Usage (TPTU) abilities of LLM-based agents operating within real-world systems. Our framework comprises three key components designed to address these challenges: (1) the API Retriever selects the most pertinent APIs for the user task among the extensive array available; (2) LLM Finetuner tunes a base LLM so that the finetuned LLM can be more capable for task planning and API calling; (3) the Demo Selector adaptively retrieves different demonstrations related to hard-to-distinguish APIs, which is further used for in-context learning to boost the final performance. We validate our methods using a real-world commercial system as well as an open-sourced academic dataset, and the outcomes clearly showcase the efficacy of each individual component as well as the integrated framework.

TPTU-v2: Verbetering van Taakplanning en Gereedschapsgebruik van op Grote Taalmodellen Gebaseerde Agents in Real-world Systemen

TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems

Samenvatting

Support