La documentazione degli strumenti abilita l'uso zero-shot degli strumenti con modelli linguistici di grandi dimensioni.
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models
August 1, 2023
Autori: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
Abstract
Oggi, i grandi modelli linguistici (LLM) vengono addestrati a utilizzare nuovi strumenti fornendo alcune dimostrazioni del loro utilizzo. Purtroppo, le dimostrazioni sono difficili da acquisire e possono portare a un uso distorto e indesiderato se viene scelta la dimostrazione sbagliata. Anche nello scenario raro in cui le dimostrazioni sono prontamente disponibili, non esiste un protocollo di selezione strutturato per determinare quante e quali fornire. Man mano che i compiti diventano più complessi, la ricerca della selezione cresce in modo combinatorio e diventa inevitabilmente intrattabile. Il nostro lavoro offre un'alternativa alle dimostrazioni: la documentazione degli strumenti. Sosteniamo l'uso della documentazione degli strumenti, descrizioni per l'uso individuale degli strumenti, rispetto alle dimostrazioni. Sosteniamo la nostra affermazione attraverso tre principali risultati empirici su 6 compiti che coprono sia le modalità visive che linguistiche. In primo luogo, sui benchmark esistenti, prompt zero-shot con solo la documentazione dello strumento sono sufficienti per ottenere un uso corretto dello strumento, raggiungendo prestazioni pari a quelle dei prompt few-shot. In secondo luogo, su un nuovo dataset realistico di utilizzo di strumenti con centinaia di API disponibili, dimostriamo che la documentazione dello strumento è significativamente più preziosa delle dimostrazioni, con la documentazione zero-shot che supera significativamente il few-shot senza documentazione. In terzo luogo, evidenziamo i vantaggi della documentazione degli strumenti affrontando la generazione di immagini e il tracciamento video utilizzando modelli all'avanguardia appena rilasciati come strumenti. Infine, evidenziamo la possibilità di utilizzare la documentazione degli strumenti per abilitare automaticamente nuove applicazioni: utilizzando nient'altro che la documentazione di GroundingDino, Stable Diffusion, XMem e SAM, gli LLM possono reinventare le funzionalità dei modelli appena rilasciati Grounded-SAM e Track Anything.
English
Today, large language models (LLMs) are taught to use new tools by providing
a few demonstrations of the tool's usage. Unfortunately, demonstrations are
hard to acquire, and can result in undesirable biased usage if the wrong
demonstration is chosen. Even in the rare scenario that demonstrations are
readily available, there is no principled selection protocol to determine how
many and which ones to provide. As tasks grow more complex, the selection
search grows combinatorially and invariably becomes intractable. Our work
provides an alternative to demonstrations: tool documentation. We advocate the
use of tool documentation, descriptions for the individual tool usage, over
demonstrations. We substantiate our claim through three main empirical findings
on 6 tasks across both vision and language modalities. First, on existing
benchmarks, zero-shot prompts with only tool documentation are sufficient for
eliciting proper tool usage, achieving performance on par with few-shot
prompts. Second, on a newly collected realistic tool-use dataset with hundreds
of available tool APIs, we show that tool documentation is significantly more
valuable than demonstrations, with zero-shot documentation significantly
outperforming few-shot without documentation. Third, we highlight the benefits
of tool documentations by tackling image generation and video tracking using
just-released unseen state-of-the-art models as tools. Finally, we highlight
the possibility of using tool documentation to automatically enable new
applications: by using nothing more than the documentation of GroundingDino,
Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the
just-released Grounded-SAM and Track Anything models.