ChatPaper.aiChatPaper

Die Dokumentation von Werkzeugen ermöglicht die Null-Shot-Nutzung von Werkzeugen mit großen Sprachmodellen.

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

August 1, 2023
Autoren: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI

Zusammenfassung

Heutzutage werden große Sprachmodelle (LLMs) darauf trainiert, neue Werkzeuge zu verwenden, indem einige Demonstrationen der Werkzeugnutzung bereitgestellt werden. Leider sind Demonstrationen schwer zu beschaffen und können zu unerwünschten verzerrten Nutzungsmustern führen, wenn die falsche Demonstration gewählt wird. Selbst in dem seltenen Fall, dass Demonstrationen leicht verfügbar sind, gibt es kein systematisches Auswahlprotokoll, um zu bestimmen, wie viele und welche Demonstrationen bereitgestellt werden sollen. Wenn Aufgaben komplexer werden, wächst die Auswahlsuche kombinatorisch und wird unweigerlich unlösbar. Unsere Arbeit bietet eine Alternative zu Demonstrationen: Werkzeugdokumentation. Wir befürworten die Verwendung von Werkzeugdokumentationen, also Beschreibungen für die individuelle Werkzeugnutzung, anstelle von Demonstrationen. Wir untermauern unsere Behauptung durch drei wesentliche empirische Erkenntnisse aus 6 Aufgaben in den Bereichen Bild und Sprache. Erstens zeigen wir auf bestehenden Benchmarks, dass Zero-Shot-Prompts mit nur Werkzeugdokumentation ausreichen, um eine korrekte Werkzeugnutzung zu ermöglichen, und dabei eine Leistung erzielen, die mit Few-Shot-Prompts vergleichbar ist. Zweitens demonstrieren wir auf einem neu gesammelten realistischen Datensatz zur Werkzeugnutzung mit Hunderten von verfügbaren Tool-APIs, dass Werkzeugdokumentation deutlich wertvoller ist als Demonstrationen, wobei Zero-Shot-Dokumentation Few-Shot ohne Dokumentation deutlich übertrifft. Drittens heben wir die Vorteile von Werkzeugdokumentationen hervor, indem wir Bildgenerierung und Videotracking mit gerade veröffentlichten, unbekannten State-of-the-Art-Modellen als Werkzeuge angehen. Schließlich zeigen wir die Möglichkeit auf, Werkzeugdokumentationen zu nutzen, um automatisch neue Anwendungen zu ermöglichen: Allein durch die Dokumentation von GroundingDino, Stable Diffusion, XMem und SAM können LLMs die Funktionalitäten der gerade veröffentlichten Modelle Grounded-SAM und Track Anything neu erfinden.
English
Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.
PDF361December 15, 2024