Tool Documentatie Maakt Zero-Shot Tool-Gebruik Mogelijk met Grote Taalmodellen
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models
August 1, 2023
Auteurs: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
Samenvatting
Tegenwoordig worden grote taalmodellen (LLMs) geleerd om nieuwe tools te gebruiken door enkele demonstraties van het gebruik van de tool te verstrekken. Helaas zijn demonstraties moeilijk te verkrijgen en kunnen ze leiden tot ongewenst bevooroordeeld gebruik als de verkeerde demonstratie wordt gekozen. Zelfs in het zeldzame scenario dat demonstraties direct beschikbaar zijn, is er geen principieel selectieprotocol om te bepalen hoeveel en welke demonstraties moeten worden verstrekt. Naarmate taken complexer worden, groeit de selectiezoekruimte combinatorisch en wordt deze onvermijdelijk onhanteerbaar. Ons werk biedt een alternatief voor demonstraties: tool documentatie. Wij pleiten voor het gebruik van tool documentatie, beschrijvingen voor het individuele toolgebruik, in plaats van demonstraties. Wij onderbouwen onze claim door drie belangrijke empirische bevindingen over 6 taken in zowel visuele als taalkundige modaliteiten. Ten eerste zijn op bestaande benchmarks zero-shot prompts met alleen tool documentatie voldoende om correct toolgebruik te stimuleren, waarbij de prestaties vergelijkbaar zijn met few-shot prompts. Ten tweede tonen we op een nieuw verzamelde realistische toolgebruikdataset met honderden beschikbare tool-API's aan dat tool documentatie aanzienlijk waardevoller is dan demonstraties, waarbij zero-shot documentatie significant beter presteert dan few-shot zonder documentatie. Ten derde benadrukken we de voordelen van tool documentatie door beeldgeneratie en videotracking aan te pakken met behulp van net vrijgegeven, onbekende state-of-the-art modellen als tools. Tot slot benadrukken we de mogelijkheid om tool documentatie te gebruiken om automatisch nieuwe toepassingen mogelijk te maken: door niets meer te gebruiken dan de documentatie van GroundingDino, Stable Diffusion, XMem en SAM, kunnen LLMs de functionaliteiten van de net vrijgegeven Grounded-SAM en Track Anything modellen opnieuw uitvinden.
English
Today, large language models (LLMs) are taught to use new tools by providing
a few demonstrations of the tool's usage. Unfortunately, demonstrations are
hard to acquire, and can result in undesirable biased usage if the wrong
demonstration is chosen. Even in the rare scenario that demonstrations are
readily available, there is no principled selection protocol to determine how
many and which ones to provide. As tasks grow more complex, the selection
search grows combinatorially and invariably becomes intractable. Our work
provides an alternative to demonstrations: tool documentation. We advocate the
use of tool documentation, descriptions for the individual tool usage, over
demonstrations. We substantiate our claim through three main empirical findings
on 6 tasks across both vision and language modalities. First, on existing
benchmarks, zero-shot prompts with only tool documentation are sufficient for
eliciting proper tool usage, achieving performance on par with few-shot
prompts. Second, on a newly collected realistic tool-use dataset with hundreds
of available tool APIs, we show that tool documentation is significantly more
valuable than demonstrations, with zero-shot documentation significantly
outperforming few-shot without documentation. Third, we highlight the benefits
of tool documentations by tackling image generation and video tracking using
just-released unseen state-of-the-art models as tools. Finally, we highlight
the possibility of using tool documentation to automatically enable new
applications: by using nothing more than the documentation of GroundingDino,
Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the
just-released Grounded-SAM and Track Anything models.