La documentation des outils permet une utilisation sans apprentissage préalable (zero-shot) des outils par les grands modèles de langage.

papers.abstract

Aujourd'hui, les grands modèles de langage (LLMs) apprennent à utiliser de nouveaux outils en leur fournissant quelques démonstrations de leur utilisation. Malheureusement, les démonstrations sont difficiles à obtenir et peuvent entraîner une utilisation biaisée indésirable si la mauvaise démonstration est choisie. Même dans le rare scénario où les démonstrations sont facilement disponibles, il n'existe pas de protocole de sélection rigoureux pour déterminer combien et lesquelles fournir. À mesure que les tâches deviennent plus complexes, la recherche de sélection croît de manière combinatoire et devient invariablement insoluble. Notre travail propose une alternative aux démonstrations : la documentation des outils. Nous préconisons l'utilisation de la documentation des outils, c'est-à-dire des descriptions de l'utilisation individuelle des outils, plutôt que des démonstrations. Nous étayons notre affirmation par trois principales découvertes empiriques sur 6 tâches couvrant à la fois les modalités visuelles et linguistiques. Premièrement, sur les benchmarks existants, des prompts en zero-shot avec uniquement la documentation des outils suffisent pour susciter une utilisation appropriée des outils, atteignant des performances comparables à celles des prompts en few-shot. Deuxièmement, sur un nouvel ensemble de données réalistes d'utilisation d'outils avec des centaines d'API disponibles, nous montrons que la documentation des outils est nettement plus précieuse que les démonstrations, avec une documentation en zero-shot surpassant significativement le few-shot sans documentation. Troisièmement, nous mettons en évidence les avantages de la documentation des outils en abordant la génération d'images et le suivi vidéo en utilisant des modèles de pointe récemment publiés et inconnus comme outils. Enfin, nous soulignons la possibilité d'utiliser la documentation des outils pour activer automatiquement de nouvelles applications : en utilisant rien de plus que la documentation de GroundingDino, Stable Diffusion, XMem et SAM, les LLMs peuvent réinventer les fonctionnalités des modèles Grounded-SAM et Track Anything, récemment publiés.

English

Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.

La documentation des outils permet une utilisation sans apprentissage préalable (zero-shot) des outils par les grands modèles de langage.

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

papers.abstract

Support