ControlLLM: Aprimorando Modelos de Linguagem com Ferramentas por meio de Busca em Grafos

Resumo

Apresentamos o ControlLLM, uma nova estrutura que permite que modelos de linguagem de grande escala (LLMs) utilizem ferramentas multimodais para resolver tarefas complexas do mundo real. Apesar do desempenho notável dos LLMs, eles ainda enfrentam dificuldades com a invocação de ferramentas devido a prompts de usuário ambíguos, seleção e parametrização imprecisa de ferramentas e agendamento ineficiente de ferramentas. Para superar esses desafios, nossa estrutura é composta por três componentes principais: (1) um decompositor de tarefas que divide uma tarefa complexa em subtarefas claras com entradas e saídas bem definidas; (2) um paradigma de Pensamentos-em-Grafo (ToG) que busca o caminho de solução ótimo em um grafo de ferramentas pré-construído, o qual especifica as relações de parâmetros e dependências entre diferentes ferramentas; e (3) um motor de execução com uma caixa de ferramentas rica que interpreta o caminho de solução e executa as ferramentas de forma eficiente em diferentes dispositivos computacionais. Avaliamos nossa estrutura em diversas tarefas envolvendo processamento de imagens, áudio e vídeo, demonstrando sua superioridade em precisão, eficiência e versatilidade em comparação com métodos existentes.

English

We present ControlLLM, a novel framework that enables large language models (LLMs) to utilize multi-modal tools for solving complex real-world tasks. Despite the remarkable performance of LLMs, they still struggle with tool invocation due to ambiguous user prompts, inaccurate tool selection and parameterization, and inefficient tool scheduling. To overcome these challenges, our framework comprises three key components: (1) a task decomposer that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG) paradigm that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an execution engine with a rich toolbox that interprets the solution path and runs the tools efficiently on different computational devices. We evaluate our framework on diverse tasks involving image, audio, and video processing, demonstrating its superior accuracy, efficiency, and versatility compared to existing methods.

ControlLLM: Aprimorando Modelos de Linguagem com Ferramentas por meio de Busca em Grafos

ControlLLM: Augment Language Models with Tools by Searching on Graphs

Resumo

Support