A Documentação de Ferramentas Permite o Uso de Ferramentas em Zero-Shot com Modelos de Linguagem de Grande Escala

Resumo

Hoje, os grandes modelos de linguagem (LLMs) são ensinados a usar novas ferramentas fornecendo algumas demonstrações do uso da ferramenta. Infelizmente, as demonstrações são difíceis de adquirir e podem resultar em um uso tendencioso indesejado se a demonstração errada for escolhida. Mesmo no raro cenário em que as demonstrações estão prontamente disponíveis, não há um protocolo de seleção fundamentado para determinar quantas e quais fornecer. À medida que as tarefas se tornam mais complexas, a busca de seleção cresce de forma combinatória e invariavelmente se torna intratável. Nosso trabalho oferece uma alternativa às demonstrações: a documentação da ferramenta. Defendemos o uso da documentação da ferramenta, descrições para o uso individual da ferramenta, em vez de demonstrações. Fundamentamos nossa afirmação por meio de três principais descobertas empíricas em 6 tarefas abrangendo as modalidades de visão e linguagem. Primeiro, em benchmarks existentes, prompts zero-shot com apenas a documentação da ferramenta são suficientes para eliciar o uso adequado da ferramenta, alcançando desempenho equivalente a prompts few-shot. Segundo, em um novo conjunto de dados realista de uso de ferramentas com centenas de APIs de ferramentas disponíveis, mostramos que a documentação da ferramenta é significativamente mais valiosa do que as demonstrações, com a documentação zero-shot superando significativamente o few-shot sem documentação. Terceiro, destacamos os benefícios da documentação de ferramentas ao abordar a geração de imagens e o rastreamento de vídeo usando modelos state-of-the-art recém-lançados e não vistos como ferramentas. Por fim, destacamos a possibilidade de usar a documentação da ferramenta para habilitar automaticamente novas aplicações: usando nada mais do que a documentação de GroundingDino, Stable Diffusion, XMem e SAM, os LLMs podem reinventar as funcionalidades dos modelos Grounded-SAM e Track Anything recém-lançados.

English

Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.

A Documentação de Ferramentas Permite o Uso de Ferramentas em Zero-Shot com Modelos de Linguagem de Grande Escala

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Resumo

Support