A Documentação de Ferramentas Permite o Uso de Ferramentas em Zero-Shot com Modelos de Linguagem de Grande Escala
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models
August 1, 2023
Autores: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
Resumo
Hoje, os grandes modelos de linguagem (LLMs) são ensinados a usar novas ferramentas fornecendo algumas demonstrações do uso da ferramenta. Infelizmente, as demonstrações são difíceis de adquirir e podem resultar em um uso tendencioso indesejado se a demonstração errada for escolhida. Mesmo no raro cenário em que as demonstrações estão prontamente disponíveis, não há um protocolo de seleção fundamentado para determinar quantas e quais fornecer. À medida que as tarefas se tornam mais complexas, a busca de seleção cresce de forma combinatória e invariavelmente se torna intratável. Nosso trabalho oferece uma alternativa às demonstrações: a documentação da ferramenta. Defendemos o uso da documentação da ferramenta, descrições para o uso individual da ferramenta, em vez de demonstrações. Fundamentamos nossa afirmação por meio de três principais descobertas empíricas em 6 tarefas abrangendo as modalidades de visão e linguagem. Primeiro, em benchmarks existentes, prompts zero-shot com apenas a documentação da ferramenta são suficientes para eliciar o uso adequado da ferramenta, alcançando desempenho equivalente a prompts few-shot. Segundo, em um novo conjunto de dados realista de uso de ferramentas com centenas de APIs de ferramentas disponíveis, mostramos que a documentação da ferramenta é significativamente mais valiosa do que as demonstrações, com a documentação zero-shot superando significativamente o few-shot sem documentação. Terceiro, destacamos os benefícios da documentação de ferramentas ao abordar a geração de imagens e o rastreamento de vídeo usando modelos state-of-the-art recém-lançados e não vistos como ferramentas. Por fim, destacamos a possibilidade de usar a documentação da ferramenta para habilitar automaticamente novas aplicações: usando nada mais do que a documentação de GroundingDino, Stable Diffusion, XMem e SAM, os LLMs podem reinventar as funcionalidades dos modelos Grounded-SAM e Track Anything recém-lançados.
English
Today, large language models (LLMs) are taught to use new tools by providing
a few demonstrations of the tool's usage. Unfortunately, demonstrations are
hard to acquire, and can result in undesirable biased usage if the wrong
demonstration is chosen. Even in the rare scenario that demonstrations are
readily available, there is no principled selection protocol to determine how
many and which ones to provide. As tasks grow more complex, the selection
search grows combinatorially and invariably becomes intractable. Our work
provides an alternative to demonstrations: tool documentation. We advocate the
use of tool documentation, descriptions for the individual tool usage, over
demonstrations. We substantiate our claim through three main empirical findings
on 6 tasks across both vision and language modalities. First, on existing
benchmarks, zero-shot prompts with only tool documentation are sufficient for
eliciting proper tool usage, achieving performance on par with few-shot
prompts. Second, on a newly collected realistic tool-use dataset with hundreds
of available tool APIs, we show that tool documentation is significantly more
valuable than demonstrations, with zero-shot documentation significantly
outperforming few-shot without documentation. Third, we highlight the benefits
of tool documentations by tackling image generation and video tracking using
just-released unseen state-of-the-art models as tools. Finally, we highlight
the possibility of using tool documentation to automatically enable new
applications: by using nothing more than the documentation of GroundingDino,
Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the
just-released Grounded-SAM and Track Anything models.