La documentazione degli strumenti abilita l'uso zero-shot degli strumenti con modelli linguistici di grandi dimensioni.

Abstract

Oggi, i grandi modelli linguistici (LLM) vengono addestrati a utilizzare nuovi strumenti fornendo alcune dimostrazioni del loro utilizzo. Purtroppo, le dimostrazioni sono difficili da acquisire e possono portare a un uso distorto e indesiderato se viene scelta la dimostrazione sbagliata. Anche nello scenario raro in cui le dimostrazioni sono prontamente disponibili, non esiste un protocollo di selezione strutturato per determinare quante e quali fornire. Man mano che i compiti diventano più complessi, la ricerca della selezione cresce in modo combinatorio e diventa inevitabilmente intrattabile. Il nostro lavoro offre un'alternativa alle dimostrazioni: la documentazione degli strumenti. Sosteniamo l'uso della documentazione degli strumenti, descrizioni per l'uso individuale degli strumenti, rispetto alle dimostrazioni. Sosteniamo la nostra affermazione attraverso tre principali risultati empirici su 6 compiti che coprono sia le modalità visive che linguistiche. In primo luogo, sui benchmark esistenti, prompt zero-shot con solo la documentazione dello strumento sono sufficienti per ottenere un uso corretto dello strumento, raggiungendo prestazioni pari a quelle dei prompt few-shot. In secondo luogo, su un nuovo dataset realistico di utilizzo di strumenti con centinaia di API disponibili, dimostriamo che la documentazione dello strumento è significativamente più preziosa delle dimostrazioni, con la documentazione zero-shot che supera significativamente il few-shot senza documentazione. In terzo luogo, evidenziamo i vantaggi della documentazione degli strumenti affrontando la generazione di immagini e il tracciamento video utilizzando modelli all'avanguardia appena rilasciati come strumenti. Infine, evidenziamo la possibilità di utilizzare la documentazione degli strumenti per abilitare automaticamente nuove applicazioni: utilizzando nient'altro che la documentazione di GroundingDino, Stable Diffusion, XMem e SAM, gli LLM possono reinventare le funzionalità dei modelli appena rilasciati Grounded-SAM e Track Anything.

English

Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.

La documentazione degli strumenti abilita l'uso zero-shot degli strumenti con modelli linguistici di grandi dimensioni.

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Abstract

Support