ControlLLM: Erweiterung von Sprachmodellen durch Werkzeuge mittels Graphensuche

papers.abstract

Wir präsentieren ControlLLM, ein neuartiges Framework, das großen Sprachmodellen (LLMs) ermöglicht, multimodale Werkzeuge zur Lösung komplexer realer Aufgaben zu nutzen. Trotz der bemerkenswerten Leistung von LLMs haben sie weiterhin Schwierigkeiten mit dem Aufruf von Werkzeugen aufgrund von mehrdeutigen Benutzeranfragen, ungenauer Werkzeugauswahl und Parametrisierung sowie ineffizienter Werkzeugplanung. Um diese Herausforderungen zu bewältigen, besteht unser Framework aus drei Schlüsselkomponenten: (1) einem Aufgabenzerleger, der eine komplexe Aufgabe in klare Teilaufgaben mit klar definierten Eingaben und Ausgaben aufteilt; (2) einem Thoughts-on-Graph (ToG)-Paradigma, das den optimalen Lösungsweg auf einem vordefinierten Werkzeuggraphen sucht, der die Parameter- und Abhängigkeitsbeziehungen zwischen verschiedenen Werkzeugen spezifiziert; und (3) einer Ausführungsengine mit einem umfangreichen Werkzeugkasten, die den Lösungsweg interpretiert und die Werkzeuge effizient auf verschiedenen Rechengeräten ausführt. Wir evaluieren unser Framework anhand verschiedener Aufgaben in den Bereichen Bild-, Audio- und Videoverarbeitung und zeigen seine überlegene Genauigkeit, Effizienz und Vielseitigkeit im Vergleich zu bestehenden Methoden.

English

We present ControlLLM, a novel framework that enables large language models (LLMs) to utilize multi-modal tools for solving complex real-world tasks. Despite the remarkable performance of LLMs, they still struggle with tool invocation due to ambiguous user prompts, inaccurate tool selection and parameterization, and inefficient tool scheduling. To overcome these challenges, our framework comprises three key components: (1) a task decomposer that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a Thoughts-on-Graph (ToG) paradigm that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an execution engine with a rich toolbox that interprets the solution path and runs the tools efficiently on different computational devices. We evaluate our framework on diverse tasks involving image, audio, and video processing, demonstrating its superior accuracy, efficiency, and versatility compared to existing methods.

ControlLLM: Erweiterung von Sprachmodellen durch Werkzeuge mittels Graphensuche

ControlLLM: Augment Language Models with Tools by Searching on Graphs

papers.abstract

Support