ControlLLM: Versterk Taalmodellen met Hulpmiddelen door te Zoeken op Grafieken
ControlLLM: Augment Language Models with Tools by Searching on Graphs
October 26, 2023
Auteurs: Zhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Samenvatting
We presenteren ControlLLM, een nieuw framework dat grote taalmodellen (LLMs) in staat stelt om multimodale tools te gebruiken voor het oplossen van complexe real-world taken. Ondanks de opmerkelijke prestaties van LLMs, hebben ze nog steeds moeite met het aanroepen van tools vanwege onduidelijke gebruikersprompts, onnauwkeurige toolselectie en parameterisatie, en inefficiënte toolscheduling. Om deze uitdagingen te overwinnen, bestaat ons framework uit drie belangrijke componenten: (1) een taakontleder die een complexe taak opsplitst in duidelijke subtaken met goed gedefinieerde invoer en uitvoer; (2) een Thoughts-on-Graph (ToG)-paradigma dat het optimale oplossingspad zoekt op een vooraf gebouwde toolgrafiek, die de parameter- en afhankelijkheidsrelaties tussen verschillende tools specificeert; en (3) een uitvoeringsengine met een uitgebreide toolbox die het oplossingspad interpreteert en de tools efficiënt uitvoert op verschillende rekenapparaten. We evalueren ons framework op diverse taken met betrekking tot beeld-, audio- en videoverwerking, waarbij we de superieure nauwkeurigheid, efficiëntie en veelzijdigheid ervan aantonen in vergelijking met bestaande methoden.
English
We present ControlLLM, a novel framework that enables large language models
(LLMs) to utilize multi-modal tools for solving complex real-world tasks.
Despite the remarkable performance of LLMs, they still struggle with tool
invocation due to ambiguous user prompts, inaccurate tool selection and
parameterization, and inefficient tool scheduling. To overcome these
challenges, our framework comprises three key components: (1) a task
decomposer that breaks down a complex task into clear subtasks with
well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG)
paradigm that searches the optimal solution path on a pre-built tool graph,
which specifies the parameter and dependency relations among different tools;
and (3) an execution engine with a rich toolbox that interprets the
solution path and runs the tools efficiently on different computational
devices. We evaluate our framework on diverse tasks involving image, audio, and
video processing, demonstrating its superior accuracy, efficiency, and
versatility compared to existing methods.