La documentation des outils permet une utilisation sans apprentissage préalable (zero-shot) des outils par les grands modèles de langage.
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models
August 1, 2023
Auteurs: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
Résumé
Aujourd'hui, les grands modèles de langage (LLMs) apprennent à utiliser de nouveaux outils en leur fournissant quelques démonstrations de leur utilisation. Malheureusement, les démonstrations sont difficiles à obtenir et peuvent entraîner une utilisation biaisée indésirable si la mauvaise démonstration est choisie. Même dans le rare scénario où les démonstrations sont facilement disponibles, il n'existe pas de protocole de sélection rigoureux pour déterminer combien et lesquelles fournir. À mesure que les tâches deviennent plus complexes, la recherche de sélection croît de manière combinatoire et devient invariablement insoluble. Notre travail propose une alternative aux démonstrations : la documentation des outils. Nous préconisons l'utilisation de la documentation des outils, c'est-à-dire des descriptions de l'utilisation individuelle des outils, plutôt que des démonstrations. Nous étayons notre affirmation par trois principales découvertes empiriques sur 6 tâches couvrant à la fois les modalités visuelles et linguistiques. Premièrement, sur les benchmarks existants, des prompts en zero-shot avec uniquement la documentation des outils suffisent pour susciter une utilisation appropriée des outils, atteignant des performances comparables à celles des prompts en few-shot. Deuxièmement, sur un nouvel ensemble de données réalistes d'utilisation d'outils avec des centaines d'API disponibles, nous montrons que la documentation des outils est nettement plus précieuse que les démonstrations, avec une documentation en zero-shot surpassant significativement le few-shot sans documentation. Troisièmement, nous mettons en évidence les avantages de la documentation des outils en abordant la génération d'images et le suivi vidéo en utilisant des modèles de pointe récemment publiés et inconnus comme outils. Enfin, nous soulignons la possibilité d'utiliser la documentation des outils pour activer automatiquement de nouvelles applications : en utilisant rien de plus que la documentation de GroundingDino, Stable Diffusion, XMem et SAM, les LLMs peuvent réinventer les fonctionnalités des modèles Grounded-SAM et Track Anything, récemment publiés.
English
Today, large language models (LLMs) are taught to use new tools by providing
a few demonstrations of the tool's usage. Unfortunately, demonstrations are
hard to acquire, and can result in undesirable biased usage if the wrong
demonstration is chosen. Even in the rare scenario that demonstrations are
readily available, there is no principled selection protocol to determine how
many and which ones to provide. As tasks grow more complex, the selection
search grows combinatorially and invariably becomes intractable. Our work
provides an alternative to demonstrations: tool documentation. We advocate the
use of tool documentation, descriptions for the individual tool usage, over
demonstrations. We substantiate our claim through three main empirical findings
on 6 tasks across both vision and language modalities. First, on existing
benchmarks, zero-shot prompts with only tool documentation are sufficient for
eliciting proper tool usage, achieving performance on par with few-shot
prompts. Second, on a newly collected realistic tool-use dataset with hundreds
of available tool APIs, we show that tool documentation is significantly more
valuable than demonstrations, with zero-shot documentation significantly
outperforming few-shot without documentation. Third, we highlight the benefits
of tool documentations by tackling image generation and video tracking using
just-released unseen state-of-the-art models as tools. Finally, we highlight
the possibility of using tool documentation to automatically enable new
applications: by using nothing more than the documentation of GroundingDino,
Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the
just-released Grounded-SAM and Track Anything models.