ControlLLM: Расширение языковых моделей с помощью инструментов через поиск на графах

Аннотация

Мы представляем ControlLLM — новый фреймворк, который позволяет крупным языковым моделям (LLM) использовать мультимодальные инструменты для решения сложных задач в реальном мире. Несмотря на впечатляющую производительность LLM, они по-прежнему сталкиваются с трудностями при вызове инструментов из-за неоднозначных пользовательских запросов, неточного выбора и параметризации инструментов, а также неэффективного планирования их использования. Чтобы преодолеть эти проблемы, наш фреймворк включает три ключевых компонента: (1) декомпозитор задач, который разбивает сложную задачу на четкие подзадачи с определенными входами и выходами; (2) парадигму "Мысли на графе" (Thoughts-on-Graph, ToG), которая ищет оптимальный путь решения на предварительно построенном графе инструментов, задающем параметры и зависимости между различными инструментами; и (3) механизм выполнения с богатым набором инструментов, который интерпретирует путь решения и эффективно запускает инструменты на различных вычислительных устройствах. Мы оцениваем наш фреймворк на разнообразных задачах, связанных с обработкой изображений, аудио и видео, демонстрируя его превосходную точность, эффективность и универсальность по сравнению с существующими методами.

English

We present ControlLLM, a novel framework that enables large language models (LLMs) to utilize multi-modal tools for solving complex real-world tasks. Despite the remarkable performance of LLMs, they still struggle with tool invocation due to ambiguous user prompts, inaccurate tool selection and parameterization, and inefficient tool scheduling. To overcome these challenges, our framework comprises three key components: (1) a task decomposer that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG) paradigm that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an execution engine with a rich toolbox that interprets the solution path and runs the tools efficiently on different computational devices. We evaluate our framework on diverse tasks involving image, audio, and video processing, demonstrating its superior accuracy, efficiency, and versatility compared to existing methods.

ControlLLM: Расширение языковых моделей с помощью инструментов через поиск на графах

ControlLLM: Augment Language Models with Tools by Searching on Graphs

Аннотация

Support