Tool Documentatie Maakt Zero-Shot Tool-Gebruik Mogelijk met Grote Taalmodellen

Samenvatting

Tegenwoordig worden grote taalmodellen (LLMs) geleerd om nieuwe tools te gebruiken door enkele demonstraties van het gebruik van de tool te verstrekken. Helaas zijn demonstraties moeilijk te verkrijgen en kunnen ze leiden tot ongewenst bevooroordeeld gebruik als de verkeerde demonstratie wordt gekozen. Zelfs in het zeldzame scenario dat demonstraties direct beschikbaar zijn, is er geen principieel selectieprotocol om te bepalen hoeveel en welke demonstraties moeten worden verstrekt. Naarmate taken complexer worden, groeit de selectiezoekruimte combinatorisch en wordt deze onvermijdelijk onhanteerbaar. Ons werk biedt een alternatief voor demonstraties: tool documentatie. Wij pleiten voor het gebruik van tool documentatie, beschrijvingen voor het individuele toolgebruik, in plaats van demonstraties. Wij onderbouwen onze claim door drie belangrijke empirische bevindingen over 6 taken in zowel visuele als taalkundige modaliteiten. Ten eerste zijn op bestaande benchmarks zero-shot prompts met alleen tool documentatie voldoende om correct toolgebruik te stimuleren, waarbij de prestaties vergelijkbaar zijn met few-shot prompts. Ten tweede tonen we op een nieuw verzamelde realistische toolgebruikdataset met honderden beschikbare tool-API's aan dat tool documentatie aanzienlijk waardevoller is dan demonstraties, waarbij zero-shot documentatie significant beter presteert dan few-shot zonder documentatie. Ten derde benadrukken we de voordelen van tool documentatie door beeldgeneratie en videotracking aan te pakken met behulp van net vrijgegeven, onbekende state-of-the-art modellen als tools. Tot slot benadrukken we de mogelijkheid om tool documentatie te gebruiken om automatisch nieuwe toepassingen mogelijk te maken: door niets meer te gebruiken dan de documentatie van GroundingDino, Stable Diffusion, XMem en SAM, kunnen LLMs de functionaliteiten van de net vrijgegeven Grounded-SAM en Track Anything modellen opnieuw uitvinden.

English

Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.

Tool Documentatie Maakt Zero-Shot Tool-Gebruik Mogelijk met Grote Taalmodellen

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Samenvatting

Support