ChatPaper.aiChatPaper

ControlLLM : Amélioration des modèles de langage par l'utilisation d'outils via la recherche sur des graphes

ControlLLM: Augment Language Models with Tools by Searching on Graphs

October 26, 2023
papers.authors: Zhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI

papers.abstract

Nous présentons ControlLLM, un nouveau cadre permettant aux grands modèles de langage (LLMs) d'utiliser des outils multi-modaux pour résoudre des tâches complexes du monde réel. Malgré les performances remarquables des LLMs, ceux-ci rencontrent encore des difficultés avec l'invocation d'outils en raison d'invites utilisateur ambiguës, d'une sélection et d'une paramétrisation imprécises des outils, ainsi que d'une planification inefficace des outils. Pour surmonter ces défis, notre cadre comprend trois composants clés : (1) un décomposeur de tâches qui divise une tâche complexe en sous-tâches claires avec des entrées et sorties bien définies ; (2) un paradigme de Pensées-sur-Graphe (Thoughts-on-Graph, ToG) qui recherche le chemin de solution optimal sur un graphe d'outils pré-construit, spécifiant les relations de paramètres et de dépendance entre différents outils ; et (3) un moteur d'exécution doté d'une boîte à outils riche qui interprète le chemin de solution et exécute les outils efficacement sur différents dispositifs de calcul. Nous évaluons notre cadre sur diverses tâches impliquant le traitement d'images, d'audio et de vidéo, démontrant sa précision, son efficacité et sa polyvalence supérieures par rapport aux méthodes existantes.
English
We present ControlLLM, a novel framework that enables large language models (LLMs) to utilize multi-modal tools for solving complex real-world tasks. Despite the remarkable performance of LLMs, they still struggle with tool invocation due to ambiguous user prompts, inaccurate tool selection and parameterization, and inefficient tool scheduling. To overcome these challenges, our framework comprises three key components: (1) a task decomposer that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG) paradigm that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an execution engine with a rich toolbox that interprets the solution path and runs the tools efficiently on different computational devices. We evaluate our framework on diverse tasks involving image, audio, and video processing, demonstrating its superior accuracy, efficiency, and versatility compared to existing methods.
PDF181December 15, 2024