ControlLLM: Aumentar Modelos de Lenguaje con Herramientas mediante Búsqueda en Grafos
ControlLLM: Augment Language Models with Tools by Searching on Graphs
October 26, 2023
Autores: Zhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Resumen
Presentamos ControlLLM, un marco novedoso que permite a los modelos de lenguaje de gran escala (LLMs) utilizar herramientas multimodales para resolver tareas complejas del mundo real. A pesar del rendimiento notable de los LLMs, estos aún enfrentan dificultades con la invocación de herramientas debido a indicaciones ambiguas del usuario, selección y parametrización imprecisa de herramientas, y programación ineficiente de las mismas. Para superar estos desafíos, nuestro marco consta de tres componentes clave: (1) un descomponedor de tareas que divide una tarea compleja en subtareas claras con entradas y salidas bien definidas; (2) un paradigma de Pensamientos-en-Grafo (ToG) que busca la ruta de solución óptima en un grafo de herramientas preconstruido, el cual especifica las relaciones de parámetros y dependencias entre diferentes herramientas; y (3) un motor de ejecución con un conjunto de herramientas rico que interpreta la ruta de solución y ejecuta las herramientas de manera eficiente en diferentes dispositivos computacionales. Evaluamos nuestro marco en diversas tareas que involucran procesamiento de imágenes, audio y video, demostrando su precisión, eficiencia y versatilidad superiores en comparación con los métodos existentes.
English
We present ControlLLM, a novel framework that enables large language models
(LLMs) to utilize multi-modal tools for solving complex real-world tasks.
Despite the remarkable performance of LLMs, they still struggle with tool
invocation due to ambiguous user prompts, inaccurate tool selection and
parameterization, and inefficient tool scheduling. To overcome these
challenges, our framework comprises three key components: (1) a task
decomposer that breaks down a complex task into clear subtasks with
well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG)
paradigm that searches the optimal solution path on a pre-built tool graph,
which specifies the parameter and dependency relations among different tools;
and (3) an execution engine with a rich toolbox that interprets the
solution path and runs the tools efficiently on different computational
devices. We evaluate our framework on diverse tasks involving image, audio, and
video processing, demonstrating its superior accuracy, efficiency, and
versatility compared to existing methods.