ControlLLM: Aumentar Modelos de Lenguaje con Herramientas mediante Búsqueda en Grafos

Resumen

Presentamos ControlLLM, un marco novedoso que permite a los modelos de lenguaje de gran escala (LLMs) utilizar herramientas multimodales para resolver tareas complejas del mundo real. A pesar del rendimiento notable de los LLMs, estos aún enfrentan dificultades con la invocación de herramientas debido a indicaciones ambiguas del usuario, selección y parametrización imprecisa de herramientas, y programación ineficiente de las mismas. Para superar estos desafíos, nuestro marco consta de tres componentes clave: (1) un descomponedor de tareas que divide una tarea compleja en subtareas claras con entradas y salidas bien definidas; (2) un paradigma de Pensamientos-en-Grafo (ToG) que busca la ruta de solución óptima en un grafo de herramientas preconstruido, el cual especifica las relaciones de parámetros y dependencias entre diferentes herramientas; y (3) un motor de ejecución con un conjunto de herramientas rico que interpreta la ruta de solución y ejecuta las herramientas de manera eficiente en diferentes dispositivos computacionales. Evaluamos nuestro marco en diversas tareas que involucran procesamiento de imágenes, audio y video, demostrando su precisión, eficiencia y versatilidad superiores en comparación con los métodos existentes.

English

We present ControlLLM, a novel framework that enables large language models (LLMs) to utilize multi-modal tools for solving complex real-world tasks. Despite the remarkable performance of LLMs, they still struggle with tool invocation due to ambiguous user prompts, inaccurate tool selection and parameterization, and inefficient tool scheduling. To overcome these challenges, our framework comprises three key components: (1) a task decomposer that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG) paradigm that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an execution engine with a rich toolbox that interprets the solution path and runs the tools efficiently on different computational devices. We evaluate our framework on diverse tasks involving image, audio, and video processing, demonstrating its superior accuracy, efficiency, and versatility compared to existing methods.

ControlLLM: Aumentar Modelos de Lenguaje con Herramientas mediante Búsqueda en Grafos

ControlLLM: Augment Language Models with Tools by Searching on Graphs

Resumen

Support