ControlLLM: Расширение языковых моделей с помощью инструментов через поиск на графах
ControlLLM: Augment Language Models with Tools by Searching on Graphs
October 26, 2023
Авторы: Zhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Аннотация
Мы представляем ControlLLM — новый фреймворк, который позволяет крупным языковым моделям (LLM) использовать мультимодальные инструменты для решения сложных задач в реальном мире. Несмотря на впечатляющую производительность LLM, они по-прежнему сталкиваются с трудностями при вызове инструментов из-за неоднозначных пользовательских запросов, неточного выбора и параметризации инструментов, а также неэффективного планирования их использования. Чтобы преодолеть эти проблемы, наш фреймворк включает три ключевых компонента: (1) декомпозитор задач, который разбивает сложную задачу на четкие подзадачи с определенными входами и выходами; (2) парадигму "Мысли на графе" (Thoughts-on-Graph, ToG), которая ищет оптимальный путь решения на предварительно построенном графе инструментов, задающем параметры и зависимости между различными инструментами; и (3) механизм выполнения с богатым набором инструментов, который интерпретирует путь решения и эффективно запускает инструменты на различных вычислительных устройствах. Мы оцениваем наш фреймворк на разнообразных задачах, связанных с обработкой изображений, аудио и видео, демонстрируя его превосходную точность, эффективность и универсальность по сравнению с существующими методами.
English
We present ControlLLM, a novel framework that enables large language models
(LLMs) to utilize multi-modal tools for solving complex real-world tasks.
Despite the remarkable performance of LLMs, they still struggle with tool
invocation due to ambiguous user prompts, inaccurate tool selection and
parameterization, and inefficient tool scheduling. To overcome these
challenges, our framework comprises three key components: (1) a task
decomposer that breaks down a complex task into clear subtasks with
well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG)
paradigm that searches the optimal solution path on a pre-built tool graph,
which specifies the parameter and dependency relations among different tools;
and (3) an execution engine with a rich toolbox that interprets the
solution path and runs the tools efficiently on different computational
devices. We evaluate our framework on diverse tasks involving image, audio, and
video processing, demonstrating its superior accuracy, efficiency, and
versatility compared to existing methods.