TPTU-v2: Verbesserung der Aufgabenplanung und Werkzeugnutzung von auf großen Sprachmodellen basierenden Agenten in realen Systemen
TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems
November 19, 2023
Autoren: Yilun Kong, Jingqing Ruan, Yihong Chen, Bin Zhang, Tianpeng Bao, Shiwei Shi, Guoqing Du, Xiaoru Hu, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben ihre Fähigkeit bewiesen, Aufgaben zu bewältigen, die eine Kombination aus Aufgabenplanung und der Nutzung externer Werkzeuge erfordern, wie beispielsweise APIs. Allerdings stellen reale komplexe Systeme drei weit verbreitete Herausforderungen in Bezug auf Aufgabenplanung und Werkzeugnutzung dar: (1) Das reale System verfügt in der Regel über eine Vielzahl von APIs, sodass es unmöglich ist, die Beschreibungen aller APIs in den Prompt der LLMs einzugeben, da die Token-Länge begrenzt ist; (2) das reale System ist für die Bewältigung komplexer Aufgaben konzipiert, und die Basis-LLMs können kaum eine korrekte Reihenfolge von Teilaufgaben und API-Aufrufen für solche Aufgaben planen; (3) Ähnliche Semantiken und Funktionalitäten zwischen APIs in realen Systemen stellen sowohl für LLMs als auch für Menschen eine Herausforderung dar, sie voneinander zu unterscheiden. Als Antwort darauf stellt dieses Papier ein umfassendes Framework vor, das darauf abzielt, die Fähigkeiten zur Aufgabenplanung und Werkzeugnutzung (TPTU) von LLM-basierten Agenten in realen Systemen zu verbessern. Unser Framework besteht aus drei Schlüsselkomponenten, die diese Herausforderungen angehen: (1) der API-Retriever wählt die relevantesten APIs für die Benutzeraufgabe aus der umfangreichen verfügbaren Auswahl aus; (2) der LLM-Finetuner passt ein Basis-LLM an, sodass das feinabgestimmte LLM besser in der Lage ist, Aufgaben zu planen und API-Aufrufe durchzuführen; (3) der Demo-Selector ruft adaptiv verschiedene Demonstrationen zu schwer zu unterscheidenden APIs ab, die weiterhin für In-Context-Learning verwendet werden, um die endgültige Leistung zu steigern. Wir validieren unsere Methoden anhand eines realen kommerziellen Systems sowie eines Open-Source-Akademie-Datensatzes, und die Ergebnisse zeigen deutlich die Wirksamkeit jeder einzelnen Komponente sowie des integrierten Frameworks.
English
Large Language Models (LLMs) have demonstrated proficiency in addressing
tasks that necessitate a combination of task planning and the usage of external
tools that require a blend of task planning and the utilization of external
tools, such as APIs. However, real-world complex systems present three
prevalent challenges concerning task planning and tool usage: (1) The real
system usually has a vast array of APIs, so it is impossible to feed the
descriptions of all APIs to the prompt of LLMs as the token length is limited;
(2) the real system is designed for handling complex tasks, and the base LLMs
can hardly plan a correct sub-task order and API-calling order for such tasks;
(3) Similar semantics and functionalities among APIs in real systems create
challenges for both LLMs and even humans in distinguishing between them. In
response, this paper introduces a comprehensive framework aimed at enhancing
the Task Planning and Tool Usage (TPTU) abilities of LLM-based agents operating
within real-world systems. Our framework comprises three key components
designed to address these challenges: (1) the API Retriever selects the most
pertinent APIs for the user task among the extensive array available; (2) LLM
Finetuner tunes a base LLM so that the finetuned LLM can be more capable for
task planning and API calling; (3) the Demo Selector adaptively retrieves
different demonstrations related to hard-to-distinguish APIs, which is further
used for in-context learning to boost the final performance. We validate our
methods using a real-world commercial system as well as an open-sourced
academic dataset, and the outcomes clearly showcase the efficacy of each
individual component as well as the integrated framework.