ControlLLM: Potenziare i Modelli Linguistici con Strumenti mediante Ricerca su Grafi

Abstract

Presentiamo ControlLLM, un nuovo framework che consente ai grandi modelli linguistici (LLM) di utilizzare strumenti multimodali per risolvere complessi compiti del mondo reale. Nonostante le prestazioni notevoli degli LLM, essi incontrano ancora difficoltà nell'invocazione degli strumenti a causa di prompt utente ambigui, selezione e parametrizzazione imprecise degli strumenti e pianificazione inefficiente degli stessi. Per superare queste sfide, il nostro framework comprende tre componenti chiave: (1) un decompositore di compiti che suddivide un compito complesso in sottocompiti chiari con input e output ben definiti; (2) un paradigma Thoughts-on-Graph (ToG) che ricerca il percorso di soluzione ottimale su un grafo di strumenti pre-costruito, il quale specifica le relazioni di parametri e dipendenze tra diversi strumenti; e (3) un motore di esecuzione con un ricco toolbox che interpreta il percorso di soluzione e esegue gli strumenti in modo efficiente su diversi dispositivi computazionali. Valutiamo il nostro framework su una varietà di compiti che coinvolgono l'elaborazione di immagini, audio e video, dimostrando la sua superiorità in termini di accuratezza, efficienza e versatilità rispetto ai metodi esistenti.

English

We present ControlLLM, a novel framework that enables large language models (LLMs) to utilize multi-modal tools for solving complex real-world tasks. Despite the remarkable performance of LLMs, they still struggle with tool invocation due to ambiguous user prompts, inaccurate tool selection and parameterization, and inefficient tool scheduling. To overcome these challenges, our framework comprises three key components: (1) a task decomposer that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG) paradigm that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an execution engine with a rich toolbox that interprets the solution path and runs the tools efficiently on different computational devices. We evaluate our framework on diverse tasks involving image, audio, and video processing, demonstrating its superior accuracy, efficiency, and versatility compared to existing methods.

ControlLLM: Potenziare i Modelli Linguistici con Strumenti mediante Ricerca su Grafi

ControlLLM: Augment Language Models with Tools by Searching on Graphs

Abstract

Support